林业主题搜索引擎研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 互联网技术 >> 正文
林业主题搜索引擎研究
作者:曹红 Publish: 2005-7-12 Hits:-
【中文题名】 林业主题搜索引擎研究
【英文题名】 Research on Focused Search Engine for Forestry
【学科专业】 森林经理
【论文级别】 硕士论文
【投稿时间】 2005-7-12
【中关键词】 搜索引擎,主题信息采集,向量空间模型,主题搜索引擎,林业,
【英关键词】 search engine,focused crawling,Vector Space Model,Focused Search engine,forestry,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题
【论文摘要】 搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点与发展趋势。本文就中文Web主题信息获取与检索技术进行了一些研究,并设计和实现了一个以主题信息采集FRobot为核心的林业主题搜索引擎FIS(Forestry Information Search)。 本文首先介绍了目前综合型搜索引擎的发展、现状、分类、工作原理并指出其不足与发展方向。随之对主题型搜索引擎产生背景与工作方式作了概述,并重点探讨了信息检索模型、主题信息采集策略、Fish算法、加权索引及检索技术等搜索引擎关键技术。在此基础上,采用成熟的向量空间模型(Vector Space Model,VSM)和改进的Fish算法,并结合html文档分析、首页关联、内容预测、数据库全文索引等各种技术,给出了一种比较理想的主题搜索引擎设计方案并实现了一个林业主题搜索引擎系统FIS。该系统面向林业领域,保证了对林业信息的完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准地提供林业专题信息查询。 最后本文总结了林业主题搜索...
【论文题纲】
独创性声明 2-3
摘要 3-4
英文摘要 4-6
目录 6-8
1 引言 8-10
2 搜索引擎发展概述 10-20
2.1 通用搜索引擎 10-15
2.1.1 搜索引擎的产生与现状 10-11
2.1.2 通用搜索引擎分类 11-12
2.1.3 通用搜索引擎工作原理 12-13
2.1.4 通用搜索引擎发展趋势 13-15
2.2 主题搜索引擎 15-18
2.2.1 主题搜索引擎的产生背景 15-16
2.2.2 主题搜索引擎特点 16-17
2.2.3 目前的研究状况 17-18
2.3 本章小结 18-20
3 主题搜索引擎技术分析 20-34
3.1 信息检索模型 20-24
3.2 Robot信息采集技术 24-28
3.2.1 Robot爬行算法 24
3.2.2 Robot主题采集策略 24-25
3.2.3 Robot遍历优先策略 25-26
3.2.4 Fish搜索算法 26-27
3.2.5 主题信息采集辅助技术 27-28
3.3 信息索引技术 28-32
3.3.1 倒排文件 29-30
3.3.2 后缀树与后缀数组 30
3.3.3 Web页面的加权索引 30-32
3.4 基于关系数据库的信息检索技术 32-33
3.5 本章小结 33-34
4 林业主题搜索引擎系统FIS设计实现 34-50
4.1 FIS系统结构 34
4.2 主题信息采集模块FRobot设计实现 34-44
4.2.1 FRobot流程设计 34-36
4.2.2 主要数据表设计 36-38
4.2.3 FRobot多线程搜索的实现 38-44
4.2.3.1 递归搜索的实现 38-40
4.2.3.2 用Java实现多线程 40-44
4.3 索引模块Flndexer设计实现 44-47
4.3.1 基于标签加权的索引策略 44-45
4.3.2 数据库全文索引实现 45-47
4.4 检索模块FSearcher设计实现 47-48
4.4.1 FSearcher检索流程 47
4.4.2 基于全文索引的检索 47-48
4.5 本章小结 48-50
5 FIS系统运行 50-54
5.1 系统解决方案与运行环境 50-51
5.2 系统初始化 51-52
5.3 信息更新 52-53
5.4 站点提交 53
5.5 本章小结 53-54
6 结论与展望 54-56
参考文献 56-58
个人简介 58-60
导师简介 60-62
论文清单 62-64
致谢 64
【DOI】 LunWen.ID:2.2008.370690
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:搜索引擎 论文 主题信息采集 向量空间模型 主题搜索引擎 林业
互联网技术最新论文
互联网技术热门论文