|
| 【中文题名】 | 基于超链接搜索策略网络爬行器的设计与实现 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英文题名】 | Design and Realization of Web Crawler with Hyperlink-based Algorithm | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【学科专业】 | 计算机应用技术 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文级别】 | 硕士论文 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【投稿时间】 | 2007-8-2 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【中关键词】 | 爬行器,搜索引擎,超链接,Web,URL, | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英关键词】 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文摘要】 | 近些年互联网上信息的快速增长使得从互联网上有效的发现并收集信息资源变得尤为重要。网络爬行器是一个用来从网络上寻找并保存网页的程序。宽度优先搜索策略是网络爬行器常用策略之一,但是普通宽度优先搜索策略常常对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高。 本文对宽度优先搜索策略进行了深入的研究,介绍了一种新型的宽度优先搜索策略——基于超链接信息的搜索策略,通过对内部与外部链接类型的区分,定义了一种新的衡量网页重要性的方法,改进了基于超链接信息的搜索策略,提高爬行器得到的网页质量;最后设计一个了基于这种策略的网络爬行器系统,并在实现中采用如下技术:通过自定义的HTTP类与Web服务器进行通信;根据要爬行网页的数目多少动态决定线程池的大小,节省系统资源。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文题纲】 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【DOI】 | LunWen.ID:2.2008.375362 |
| 付费论文:有参考文献 300元 | |
| 1、注册会员 2、购买本文 3、下载文章 | |
| 注:此文为收费论文,需付费购买。每页大约1000字。 |
|