| 【中文题名】 | 专业搜索引擎的排序算法研究 |
| 【英文题名】 | |
| 【学科专业】 | 教育技术学 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-10 |
| 【中关键词】 | 专业搜索引擎,排序算法,主题相关度,基础教育,用户评价, |
| 【英关键词】 | Specific Search Engine,Ranking Algorithm,Topic Relativity,Basic Education,Users' Evaluation, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>一般性问题>理论、方法>算法理论 |
| 【论文摘要】 |
搜索引擎是一项崭新而深奥的技术,包括分词、文档分类、特征提取、索引、存储、检索和排序等一系列技术环节。在这些环节中,排序是和用户最相关的一个关键环节,当用户输入关键词检索时,如果搜索引擎已经将用户希望的网页检索出来了,但是却将这些网页排在若干页后,则用户几乎不可能浏览到该网页,这样大大降低了用户的满意度。本文主要研究了搜索引擎的排序问题。
本文首先通过文献调研,研究通用搜索引擎排序的一般方法,如词频和位置加权算法、Direct Hit算法、Alexa的网站排名算法、Google的排序算法等,从这些方法中借鉴出通用搜索引擎排序的重要因素,分析了这些因素的求解方法,通过实验对可能的因素进行了求解。此外,鉴于基础教育搜索引擎是一个专业的搜索引擎,笔者研究发现:使用专业搜索引擎的用户有特定的专业背景,对排序的期望值更高,希望检索出的页面都是很相关的。通用搜索引擎对某个关键词检索出的页面是分布于多个主题的,不符合用户的需求。笔者提出了主题相关度因素,对每个页面计算和主题相关的程度,再与通用搜索引擎排序的若干因素合理整合,使专业搜索引擎的排序更加符合用户的需要。本文在基础教育搜索引擎上进行了排序实验,实... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-7 |
|
第1章 前言 |
7-15 |
|
1.1 专业搜索引擎排序算法的研究背景 |
7-14 |
|
1.1.1 搜索引擎的发展 |
7-8 |
|
1.1.2 搜索引擎的技术架构 |
8 |
|
1.1.3 基础教育搜索引擎的应运而生及系统架构 |
8-9 |
|
1.1.4 排序在搜索引擎中的作用和地位 |
9-10 |
|
1.1.5 专业搜索引擎排序的研究现状 |
10-11 |
|
1.1.6 专业搜索引擎排序的面临的主要问题 |
11 |
|
1.1.7 专业搜索引擎排序研究的意义 |
11-14 |
|
1.2 本文的主要工作 |
14-15 |
|
1.2.1 研究思路 |
14 |
|
1.2.2 研究主要内容 |
14 |
|
1.2.3 研究的成果和创新 |
14-15 |
|
第2章 信息检索中的排序 |
15-23 |
|
2.1 传统信息检索的相关排序技术 |
15-16 |
|
2.2 通用搜索引擎的排序算法和策略 |
16-21 |
|
2.2.1 词频和位置加权排序算法 |
16 |
|
2.2.2 Direct Hit算法 |
16 |
|
2.2.3 Alexa的网站排名算法 |
16-18 |
|
2.2.4 Google的排序算法 |
18-20 |
|
2.2.5 SALSA算法 |
20 |
|
2.2.6 PHITS算法(Probabilistic analogue of the HITS) |
20 |
|
2.2.7 BAYESIAN算法 |
20 |
|
2.2.8 WEB QUERY算法 |
20 |
|
2.2.9 The Web as a database |
20 |
|
2.2.10 自动分类 |
20 |
|
2.2.11 相似度算法 |
20-21 |
|
2.2.12 竞价排名 |
21 |
|
2.3 通用搜索引擎排序成功的现行案例研究 |
21-23 |
|
第3章 专业搜索引擎的排序算法设计 |
23-32 |
|
3.1 专业搜索引擎排序的原则和方法 |
23-28 |
|
3.1.1 遵循通用搜索引擎的通性 |
23-25 |
|
3.1.2 符合专业搜索引擎的特性 |
25-27 |
|
3.1.3 开源Lucene排序的借鉴 |
27-28 |
|
3.2 在基础教育搜索引擎中进行排序算法的实验 |
28-30 |
|
3.3 分析实验数据并总结算法 |
30-32 |
|
第4章 搜索引擎的用户评价标准 |
32-38 |
|
4.1 搜索引擎的性能比较 |
32-34 |
|
4.1.1 数据库大小及其覆盖率 |
32-33 |
|
4.1.2 标引内容和深度 |
33 |
|
4.1.3 新颖率 |
33-34 |
|
4.2 检索方式的比较 |
34-36 |
|
4.2.1 检索表达式的构造 |
34 |
|
4.2.2 检索功能 |
34-36 |
|
4.3 检索结果的比较 |
36 |
|
4.3.1 响应时间 |
36 |
|
4.3.2 查全率和查准率 |
36 |
|
4.3.3 输出结果的显示格式与内容 |
36 |
|
4.3.4 排序 |
36 |
|
4.4 用户负担 |
36-38 |
|
4.4.1 后处理过程 |
36-37 |
|
4.4.2 辅助功能 |
37 |
|
4.4.3 信息过滤 |
37-38 |
|
第5章 总结和展望 |
38-42 |
|
5.1 总结 |
38-39 |
|
5.1.1 提炼专业搜索引擎的排序算法 |
38 |
|
5.1.2 研究成果综述 |
38-39 |
|
5.2 不足 |
39-40 |
|
5.2.1 PageRank的问题 |
39-40 |
|
5.2.2 没有真正解决相关性 |
40 |
|
5.3 后续研究 |
40-42 |
|
参考文献 |
42-45 |
|
附录 |
45-49 |
|
致谢 |
49 |
|
| 【DOI】 | LunWen.ID:2.2008.360243 |