| 【中文题名】 | 林业主题搜索引擎研究 |
| 【英文题名】 | Research on Focused Search Engine for Forestry |
| 【学科专业】 | 森林经理 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2005-7-12 |
| 【中关键词】 | 搜索引擎,主题信息采集,向量空间模型,主题搜索引擎,林业, |
| 【英关键词】 | search engine,focused crawling,Vector Space Model,Focused Search engine,forestry, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 | 搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文就中文Web主题信息获取与检索技术进行了一些研究,并设计和实现了一个以主题信息采集FRobot为核心的林业主题搜索引擎FIS(Forestry Information Search)。
本文首先介绍了目前综合型搜索引擎的发展、现状、分类、工作原理并指出其不足与发展方向。随之对主题型搜索引擎产生背景与工作方式作了概述,并重点探讨了信息检索模型、主题信息采集策略、Fish算法、加权索引及检索技术等搜索引擎关键技术。在此基础上,采用成熟的向量空间模型(Vector Space Model,VSM)和改进的Fish算法,并结合html文档分析、首页关联、内容预测、数据库全文索引等各种技术,给出了一种比较理想的主题搜索引擎设计方案并实现了一个林业主题搜索引擎系统FIS。该系统面向林业领域,保证了对林业信息的完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准地提供林业专题信息查询。
最后本文总结了林业主题搜索... |
| 【论文题纲】 |
|
独创性声明 |
2-3 |
|
摘要 |
3-4 |
|
英文摘要 |
4-6 |
|
目录 |
6-8 |
|
1 引言 |
8-10 |
|
2 搜索引擎发展概述 |
10-20 |
|
2.1 通用搜索引擎 |
10-15 |
|
2.1.1 搜索引擎的产生与现状 |
10-11 |
|
2.1.2 通用搜索引擎分类 |
11-12 |
|
2.1.3 通用搜索引擎工作原理 |
12-13 |
|
2.1.4 通用搜索引擎发展趋势 |
13-15 |
|
2.2 主题搜索引擎 |
15-18 |
|
2.2.1 主题搜索引擎的产生背景 |
15-16 |
|
2.2.2 主题搜索引擎特点 |
16-17 |
|
2.2.3 目前的研究状况 |
17-18 |
|
2.3 本章小结 |
18-20 |
|
3 主题搜索引擎技术分析 |
20-34 |
|
3.1 信息检索模型 |
20-24 |
|
3.2 Robot信息采集技术 |
24-28 |
|
3.2.1 Robot爬行算法 |
24 |
|
3.2.2 Robot主题采集策略 |
24-25 |
|
3.2.3 Robot遍历优先策略 |
25-26 |
|
3.2.4 Fish搜索算法 |
26-27 |
|
3.2.5 主题信息采集辅助技术 |
27-28 |
|
3.3 信息索引技术 |
28-32 |
|
3.3.1 倒排文件 |
29-30 |
|
3.3.2 后缀树与后缀数组 |
30 |
|
3.3.3 Web页面的加权索引 |
30-32 |
|
3.4 基于关系数据库的信息检索技术 |
32-33 |
|
3.5 本章小结 |
33-34 |
|
4 林业主题搜索引擎系统FIS设计实现 |
34-50 |
|
4.1 FIS系统结构 |
34 |
|
4.2 主题信息采集模块FRobot设计实现 |
34-44 |
|
4.2.1 FRobot流程设计 |
34-36 |
|
4.2.2 主要数据表设计 |
36-38 |
|
4.2.3 FRobot多线程搜索的实现 |
38-44 |
|
4.2.3.1 递归搜索的实现 |
38-40 |
|
4.2.3.2 用Java实现多线程 |
40-44 |
|
4.3 索引模块Flndexer设计实现 |
44-47 |
|
4.3.1 基于标签加权的索引策略 |
44-45 |
|
4.3.2 数据库全文索引实现 |
45-47 |
|
4.4 检索模块FSearcher设计实现 |
47-48 |
|
4.4.1 FSearcher检索流程 |
47 |
|
4.4.2 基于全文索引的检索 |
47-48 |
|
4.5 本章小结 |
48-50 |
|
5 FIS系统运行 |
50-54 |
|
5.1 系统解决方案与运行环境 |
50-51 |
|
5.2 系统初始化 |
51-52 |
|
5.3 信息更新 |
52-53 |
|
5.4 站点提交 |
53 |
|
5.5 本章小结 |
53-54 |
|
6 结论与展望 |
54-56 |
|
参考文献 |
56-58 |
|
个人简介 |
58-60 |
|
导师简介 |
60-62 |
|
论文清单 |
62-64 |
|
致谢 |
64 |
|
| 【DOI】 | LunWen.ID:2.2008.370690 |