| 【中文题名】 | 基于DotLucene网站全文搜索系统的实现 |
| 【英文题名】 | |
| 【学科专业】 | 计算机应用 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-24 |
| 【中关键词】 | Web,搜索引擎,精确度,DotLucene,, |
| 【英关键词】 | Web,Search Engine,Accuracy,DotLucene, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 |
| 【论文摘要】 |
随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前Web搜索引擎(Search Engine)技术正成为计算机科学界和信息产业界争相研究、开发的对象。
搜索引擎(Search Engine)是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,收集因特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。
自1994年起至今,伴随着因特网的日益发展壮大以及Web信息量的迅速膨胀,Web搜索引擎技术已经经历了三代发展阶段:集中式检索阶段、分布式检索阶段和智能化检索阶段。当前搜索引擎研究的主要焦点集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为特征,以适应不同层次用户的个人化信息检索需求。
本文首先介绍了Web搜索引擎的基本原理、核心技术和处理流程,并对如何提高搜索引擎的精确度和相关度进行了深入研究,... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
Abstract |
4-7 |
|
第一章 绪论 |
7-15 |
|
1.1 研究背景 |
7-9 |
|
1.1.1 搜索引擎的发展历史 |
7-9 |
|
1.1.2 现代意义上的搜索引擎 |
9 |
|
1.2 搜索引擎的分类 |
9-12 |
|
1.2.1 搜索引擎的分类 |
9-10 |
|
1.2.2 主要搜索引擎简介 |
10-12 |
|
1.3 本课题意义及设计思想 |
12-15 |
|
1.3.1 问题提出 |
12-13 |
|
1.3.2 设计思想 |
13 |
|
1.3.3 论文结构 |
13-15 |
|
第二章 系统架构及工作原理 |
15-34 |
|
2.1 系统框架结构 |
15-20 |
|
2.1.1 搜索器 |
15-16 |
|
2.1.2 中文分词 |
16-19 |
|
2.1.3 索引器 |
19 |
|
2.1.4 查询器 |
19-20 |
|
2.2 系统工作流程 |
20-22 |
|
2.3 系统内部数据结构 |
22-34 |
|
2.3.1 页面存储库(Repository) |
22-23 |
|
2.3.2 文档索引库(Document Index) |
23-24 |
|
2.3.3 词典库(Lexicon) |
24-26 |
|
2.3.4 Hit列表 |
26-31 |
|
2.3.5 前向索引表(Forward Index) |
31-32 |
|
2.3.6 后向索引表(Inverted Index) |
32-34 |
|
第三章 关于DotLucene结构及内层的研究 |
34-48 |
|
3.1 DotLucene组件简介 |
34 |
|
3.2 DotLucene全文检索的实现机制 |
34-36 |
|
3.3 DotLucene的全文索引存储文件结构 |
36-38 |
|
3.4 DotLucene的系统结构 |
38-39 |
|
3.5 Lucene.Net.Analysis命名空间分析 |
39-41 |
|
3.6 DotLucene的分词技术 |
41-46 |
|
3.6.1 DotLucene的分词技术 |
41 |
|
3.6.2 改进方法 |
41 |
|
3.6.3 核心代码 |
41-43 |
|
3.6.4 输出结果介绍 |
43-44 |
|
3.6.5 测试结果 |
44-46 |
|
3.7 DotLucene与其他检索引擎的比较 |
46-48 |
|
第四章 系统详细设计与实现 |
48-61 |
|
4.1 软件开发环境 |
48-51 |
|
4.1.1 .NET的Internet连接技术 |
48-49 |
|
4.1.2 .NET的多线程机制 |
49-51 |
|
4.2 网络爬虫模块 |
51-53 |
|
4.3 索引器模块 |
53-56 |
|
4.4 搜索器模块 |
56-57 |
|
4.5 用户接口模块 |
57-59 |
|
4.5.1 对用户输入提交到搜索引擎的信息进行收集和分析 |
57-58 |
|
4.5.2 对用户待查询的字符串queryString进行分析 |
58-59 |
|
4.6 搜索引擎的性能分析 |
59-61 |
|
第五章 总结 |
61-64 |
|
5.1 设计总结 |
61 |
|
5.2 展望 |
61-64 |
|
参考文献 |
64-67 |
|
攻读学位期间发表的学术论文 |
67-68 |
|
致谢 |
68 |
|
| 【DOI】 | LunWen.ID:2.2008.369124 |