|
| 【中文题名】 | 人工智能在搜索引擎资源获取中的应用 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英文题名】 | The Application of Artificial Intelligence in the Information Collection by Search Engine | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【学科专业】 | 软件工程 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文级别】 | 硕士论文 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【投稿时间】 | 2006-3-23 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【中关键词】 | 搜索引擎,网络爬虫,启发式搜索,智能代理,文本向量, | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英关键词】 | search engine,WebCrawler,heuristic search,Intelligent Agent,text vector, | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文摘要】 | 随着网络技术的不断发展,网上的信息资源成几何规律增加。越来越多的信息给人们带来方便的同时也增加了信息查找的难度。搜索引擎也随之应运而生。依靠搜索引擎,用户能够方便地查找需要的信息。搜索引擎一个重要部分是网络爬虫程序,依靠网络爬虫,搜索引擎可以获取用来检索的原材料信息。 传统的搜索引擎资源获取部分使用的是盲目式的遍历算法,即对所获得的链接进行遍历,抽取相关信息保存数据库中供搜索引擎检索调用。这种方法存在不少问题。使用这种方法,会导致垃圾数据的大量积累,对于某些获取的数据,可能从来不被检索访问。除此之外,由于遍历了大量无关的链接,会导致系统负担的增加,效率的低下。 在本文中,提出使用人工智能中的启发式搜索来获取特定的信息,这样可以极大地减少遍历的链接数量,使被访问到的链接尽量地指向有用的信息。减少了无关链接的访问数量,就能极大地提高相对回报率,从而提高了系统的效率。 另外,在页面类型的判断中,本文引入了一个智能代理系统,完成网页类型的自动分类判断。该部分通过抽取网页的特征项,形成文本向量,然后与中心向量进行相似度计算后,根据相似度的结果来对网页进行自动分类。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文题纲】 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【DOI】 | LunWen.ID:2.2008.387660 |
| 付费论文:有参考文献 300元 | |
| 1、注册会员 2、购买本文 3、下载文章 | |
| 注:此文为收费论文,需付费购买。每页大约1000字。 |
|