基于链接结构的中文网页排序算法研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机软件 >> 正文
基于链接结构的中文网页排序算法研究
Form: 论文之家 作者:药成刚 Publish: 2007-11-19 Hits:-
【中文题名】 基于链接结构的中文网页排序算法研究
【英文题名】 Research on Link Structure Based Chinese Page Ranking Algorithm
【学科专业】 计算机科学与技术
【论文级别】 硕士论文
【投稿时间】 2007-11-19
【中关键词】 搜索引擎,PageRank,链接分析,锚文本,,
【英关键词】 search engine,PageRank,link analyze,anchor,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>一般性问题>理论、方法>算法理论
【论文摘要】  目前,互联网上存在着各种各样的资源,而且信息量仍在快速增长着。在庞大的互联网中搜索自己所需要的信息,已经成为大部分用户经常性的操作。搜索引擎的出现,使用户搜索信息的过程变得更为方便快捷,它已成为用户在互联网中收集信息不可缺少的工具。 但是由于网络上的资源缺乏统一的规范,大量网页的结构性、组织性比较差,并且包含的内容涉及到广泛的领域,搜索引擎返回给用户的结果往往不能很好地满足用户的需要。当搜索引擎最终以一定的顺序将搜索结果返回给用户时,用户希望能方便快速地查找到自己需要的网页。 本课题研究的目的就在于把符合用户检索需求的网页更好的排在搜索结果的前面,得到较高的查准率,使其符合用户的浏览习惯。 本课题对中文网页的特点进行了分析,并在分析传统的信息检索排序方法和现在常用的基于网页链接结构排序算法优缺点的基础上,引入了锚文本和网页的相关度改进PageRank算法。本文的主要研究内容如下: (1)分析原始网页内容,提取出网页中所有链接和链接文本,建立网页地址索引库。 (2)分析网页编码方式,净化网页内容,利用VSM模型计算锚文本和网页的相关度。 (3)通过建立链...
【论文题纲】
摘要 4-5
Abstract 5-9
第1章 绪论 9-15
1.1 课题背景 9
1.2 本课题研究的目的及意义 9
1.3 国内外相关技术发展现状 9-13
1.3.1 国外搜索引擎发展状况 9-11
1.3.2 国内搜索引擎的研究现状 11
1.3.3 搜索引擎介绍 11-12
1.3.4 网页排序的应用研究现状 12-13
1.3.5 网页排序在应用中的问题 13
1.4 本文主要研究内容 13-15
第2章 网页排序算法 15-30
2.1 引言 15
2.2 锚文本 15-16
2.2.1 链接描述文档 15
2.2.2 锚文本特点及其作用 15-16
2.3 基于网页内容的排序 16-22
2.3.1 VSM模型 17-20
2.3.2 基于内容的排序 20-21
2.3.3 基于内容搜索的优缺点 21-22
2.4 基于链接结构的排序 22-29
2.4.1 链接分析 22-23
2.4.2 PageRank算法分析 23-26
2.4.3 HITS算法分析 26-27
2.4.4 PageRank和HITS算法比较 27-28
2.4.5 基于PageRank的改进算法分析 28-29
2.5 本章小结 29-30
第3章 网页排序系统设计 30-45
3.1 引言 30
3.2 基于主题相似度的PageRank算法 30-31
3.3 中文网页特点 31-32
3.4 网页排序系统设计 32-33
3.5 网页分析 33-42
3.5.1 链接提取 33-37
3.5.2 锚文本的数据结构 37-40
3.5.3 锚文本模块用例说明 40-42
3.6 网页排序设计 42-44
3.6.1 PageRank模块数据结构 42-43
3.6.2 PageRank模块用例模型说明 43-44
3.7 本章小结 44-45
第4章 实验系统分析 45-55
4.1 引言 45
4.2 实验系统的建立 45-46
4.3 链接提取结果评测 46-47
4.4 锚文本提取的有效性 47-48
4.5 相似度计算 48-49
4.6 PageRank算法评测 49-54
4.7 本章小结 54-55
结论 55-56
参考文献 56-61
致谢 61
【DOI】 LunWen.ID:2.2008.362374
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:搜索引擎 论文 PageRank 链接分析 锚文本
计算机软件最新论文
计算机软件热门论文