| 【中文题名】 | 搜索引擎排序算法的研究 |
| 【英文题名】 | Research on Rank Algorithms of Search Engine |
| 【学科专业】 | 计算机应用 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-4-29 |
| 【中关键词】 | 搜索引擎,排序,SEO,PageRank,Hits,分类技术 |
| 【英关键词】 | Search Engine,Rank,SEO,PageRank,Hits,Category technology,WebGather, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 |
| 【论文摘要】 | 互联网的出现和迅速发展使信息检索的环境发生了重大变化。而基于互联网的搜索引擎的排名算法直接关系到用户在新的环境里进行信息检索的使用体验。
现有的搜索引擎排名算法,以基于网页链接结构的算法为主,主要的两种代表性算法是PageRank算法和Hits算法,基于这两种算法国内外许多学者和研究机构又进行了新的探索和改进。在此基础上形成了一些适于搜索引擎使用的成熟的综合排名模型。
本文研究分析了国内外搜索引擎的发展背景,以及对搜索引擎排序有重要影响的SEO技术。在此基础之上,对PageRank算法和Hits算法进行了深入的分析,并探讨了国内外现有的基于链接结构的改进算法,对其进行了归纳和总结,将现有的搜索引擎排序技术的改进思路进行了分析。
针对现有算法的特点和不足,提出了分类技术与传统链接分析算法Hits算法的结合改进,这种改进算法从网页预处理和分析网页的链接结构两个方面对Hits算法进行了改进。同时,本文研究并提出了一种改进的综合排序模型,从网页内容、网页间的链接和用户反馈三个方面对排序技术建立了综合的评价公式。并在文章中设计了模型算法模拟器,对其改进的效果进行了验证。 |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-7 |
|
目录 |
7-9 |
|
第一章 搜索引擎的技术分析 |
9-19 |
|
1.1 搜索引擎的演进 |
9-10 |
|
1.2 代表性的搜索引擎介绍 |
10-13 |
|
1.2.1 Google |
10-11 |
|
1.2.2 Baidu |
11-12 |
|
1.2.3 Yahoo |
12-13 |
|
1.2.4 北大天网中英文搜索引擎 |
13 |
|
1.3 SEO技术 |
13-17 |
|
1.3.1 SEO技术的主要方法和策略 |
14-15 |
|
1.3.2 SEO技术的发展趋势 |
15 |
|
1.3.3 网页作弊的几种方式 |
15-17 |
|
1.4 本文的主要工作 |
17-18 |
|
1.5 本章小结 |
18-19 |
|
第二章 经典搜索引擎排序算法及比较 |
19-28 |
|
2.1 PageRank算法 |
19-21 |
|
2.2 Hits算法 |
21 |
|
2.3 Hilltop算法 |
21-22 |
|
2.4 经典算法评价 |
22-27 |
|
2.4.1 PageRank算法的缺点及改进 |
23-24 |
|
2.4.2 Hits算法的缺点及改进 |
24-26 |
|
2.4.3 其它基于链接结构的改进方法 |
26-27 |
|
2.5 本章小结 |
27-28 |
|
第三章 基于分类的排序算法 |
28-35 |
|
3.1 分类技术与基于链接结构的算法结合 |
28-30 |
|
3.2 分类技术的基本思想 |
30-32 |
|
3.2.1 分类的实现 |
30 |
|
3.2.2 预分类过程 |
30-32 |
|
3.2.2.1 网页的预分类 |
30-31 |
|
3.2.2.2 关键字的预分类过程 |
31-32 |
|
3.3 分类技术的应用 |
32-33 |
|
3.3.1 类别筛选机制 |
32 |
|
3.3.2 分类技术与Hits的结合 |
32-33 |
|
3.4 算法评价 |
33-34 |
|
3.5 本章小结 |
34-35 |
|
第四章 综合排序改进模型 |
35-44 |
|
4.1 相关工作 |
35-37 |
|
4.1.1 得到网页中项的基本权重 |
35-36 |
|
4.1.2 使用链接流行度来优化搜索质量 |
36 |
|
4.1.3 用户流行度反馈 |
36-37 |
|
4.1.4 WebGather模型分析 |
37 |
|
4.2 改进的综合模型介绍 |
37-38 |
|
4.3 网页标记分析 |
38-41 |
|
4.3.1 关键字词频优化 |
38-41 |
|
4.4 网页链接结构 |
41 |
|
4.5 用户反馈 |
41-42 |
|
4.6 计算最终的权重 |
42-43 |
|
4.7 本章小结 |
43-44 |
|
第五章 模拟器实现 |
44-58 |
|
5.1 技术选型 |
44 |
|
5.1.1 数据库选择 |
44 |
|
5.1.2 开发平台选择 |
44 |
|
5.2 基本原理与结构 |
44-53 |
|
5.2.1 系统用例 |
44-45 |
|
5.2.2 系统结构分析 |
45-48 |
|
5.2.2.1 用户界面 |
45 |
|
5.2.2.2 数据采集 |
45-47 |
|
5.2.2.3 数据分析 |
47 |
|
5.2.2.4 数据查询 |
47-48 |
|
5.2.3 数据库设计 |
48-49 |
|
5.2.3.1 表结构设计 |
48 |
|
5.2.3.2 存储过程和函数设计 |
48-49 |
|
5.2.4 程序设计 |
49-53 |
|
5.2.4.1 总体结构 |
49-50 |
|
5.2.4.2 UI结构 |
50-51 |
|
5.2.4.3 网络抓取结构 |
51 |
|
5.2.4.4 网页分析结构 |
51-52 |
|
5.2.4.5 数据库操作层 |
52-53 |
|
5.3 程序运行效果 |
53-54 |
|
5.4 程序改进 |
54-55 |
|
5.5 算法评价 |
55-57 |
|
5.5.1 模拟器的数据量 |
55-56 |
|
5.5.2 性能分析 |
56 |
|
5.5.3 算法验证 |
56-57 |
|
5.6 本章小结 |
57-58 |
|
第六章 结论与展望 |
58-60 |
|
6.1 总结 |
58 |
|
6.2 展望 |
58-60 |
|
致谢 |
60-61 |
|
参考文献 |
61-66 |
|
附表A |
66 |
|
| 【DOI】 | LunWen.ID:2.2008.366689 |