基于超链接搜索策略网络爬行器的设计与实现
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 互联网技术 >> 正文
基于超链接搜索策略网络爬行器的设计与实现
Form: 论文之家 作者:朱金涛 Publish: 2007-8-2 Hits:-
【中文题名】 基于超链接搜索策略网络爬行器的设计与实现
【英文题名】 Design and Realization of Web Crawler with Hyperlink-based Algorithm
【学科专业】 计算机应用技术
【论文级别】 硕士论文
【投稿时间】 2007-8-2
【中关键词】 爬行器,搜索引擎,超链接,Web,URL,
【英关键词】 
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题
【论文摘要】  近些年互联网上信息的快速增长使得从互联网上有效的发现并收集信息资源变得尤为重要。网络爬行器是一个用来从网络上寻找并保存网页的程序。宽度优先搜索策略是网络爬行器常用策略之一,但是普通宽度优先搜索策略常常对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高。 本文对宽度优先搜索策略进行了深入的研究,介绍了一种新型的宽度优先搜索策略——基于超链接信息的搜索策略,通过对内部与外部链接类型的区分,定义了一种新的衡量网页重要性的方法,改进了基于超链接信息的搜索策略,提高爬行器得到的网页质量;最后设计一个了基于这种策略的网络爬行器系统,并在实现中采用如下技术:通过自定义的HTTP类与Web服务器进行通信;根据要爬行网页的数目多少动态决定线程池的大小,节省系统资源。
【论文题纲】
提要 4-8
第一章 绪论 8-14
1.1 研究背景 8-11
1.1.1 Web 信息资源 8-10
1.1.2 Web 信息资源的发展 10-11
1.2 研究的目的及意义 11-13
1.3 本文的主要工作 13-14
第二章 搜索引擎介绍 14-35
2.1 搜索引擎简介 14
2.2 搜索引擎发展历史 14-15
2.3 搜索引擎分类 15-17
2.4 搜索引擎相关技术 17-22
2.4.1 爬行器 17-18
2.4.2 索引 18-19
2.4.3 存储 19-20
2.4.4 检索 20-21
2.4.5 爬行陷阱 21-22
2.5 经典搜索引擎Google 22-30
2.5.1 Google 的体系结构 22-25
2.5.2 Google 的数据结构 25-28
2.5.3 网页的等级值(Rank)计算 28-29
2.5.4 搜索过程 29-30
2.6 搜索引擎研究现状 30-35
2.6.1 Focus Project 30-31
2.6.2 CiteSeer %26 eBusiSearch 31-32
2.6.3 CORA 32
2.6.4 Harvest %26 Greenstone 32-33
2.6.5 OASIS 33-34
2.6.6 STIP 34-35
第三章 基于超链接信息的搜索策略 35-40
3.1 宽度优先搜索的Web 网页爬行方法 35-36
3.2 利用超链接信息对搜索策略的改进 36-38
3.3 本文对基于超链接信息搜索策略的改进 38-40
第四章 爬行器的设计与实现 40-57
4.1 爬行器总体设计 40-43
4.1.1 递归程序 40-41
4.1.2 非递归程序 41-42
4.1.3 爬行器工作流程 42-43
4.2 网页下载相关类的设计与实现 43-45
4.2.1 Attribute 类与AttributeList 类 43-44
4.2.2 HTTP 类与HTTPSocket 类 44-45
4.3 网页解析相关类的设计与实现 45-49
4.3.1 解析器工作流程 46
4.3.2 HTMLPage 类 46-47
4.3.3 HTTPTag 类 47-48
4.3.4 Parse 类与HTMLParser 类 48-49
4.4 Spider 类及其相关类 49-51
4.4.1 Spider 类 49-50
4.4.2 ISpiderReportable 接口 50
4.4.3 SpiderSQLWorkload 类 50
4.4.4 SpiderWorker 类 50-51
4.5 数据库的设计以及对改进型超链接策略的模拟 51-52
4.5.1 数据库存储设计 51
4.5.2 对改进型超链接搜索策略的模拟 51-52
4.6 实现中的难点 52-56
4.6.1 多线程的设计 52-53
4.6.2 多线程之间的通信 53-55
4.6.3 大小动态变化的线程池的设计与实现 55-56
4.7 实验 56-57
第五章 总结与展望 57-58
5.1 总结 57
5.2 进一步工作 57-58
参考文献 58-63
摘要 63-67
Abstract 67-71
致谢 71
【DOI】 LunWen.ID:2.2008.375362
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:爬行器 论文 搜索引擎 超链接 Web URL
互联网技术最新论文
互联网技术热门论文