| 【中文题名】 | 搜索引擎技术的研究与实现 |
| 【英文题名】 | The Research and Implement of the Meta Search Engine and the Clustering Algorithm |
| 【学科专业】 | 计算机应用 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-5-11 |
| 【中关键词】 | Web挖掘,元搜索引擎,自动文本分类,信息聚类,, |
| 【英关键词】 | Web Mining,Meta Search Engine,Automatic text classification,Information Clustering, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 |
| 【论文摘要】 |
信息检索(Information Retrieval, IR)是从数据集中提取出相关文档和信息的过程,Web的出现改变了传统意义上信息检索的方式,信息检索的对象也逐渐从结构化向半结构化、无结构化的方向转变。随着互联网上信息数量的不断增长,传统的检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从搜索结果中快速、准确地定位自己想要的信息,集成文本聚类功能的搜索引擎应运而生。
本文针对目前信息检索领域存在的相关问题,重点研究了搜索结果聚类算法和关键短语发现技术。文中提出了一个有效改善检索质量和检索效率的解决方案,并通过聚类方法自动组织搜索引擎的搜索结果,实现了一个集元搜索功能和聚类功能于一体的信息检索平台。它涵盖了Web文档收集、半结构化文档分析、信息聚类处理等方面内容,有效地增强了数据检索的实时性和准确性、改善了用户的使用体验。
本文的创新点主要体现在以下几个方面:
1.研究了基于潜在语义的模糊聚类算法。通过在聚类算法中使用奇异值分解技术来发现文档集合中蕴含的抽象概念,有效地避免了数据噪音的干扰,缩短了计算时间,提高了系统的 |
| 【论文题纲】 |
|
摘要 |
5-7 |
|
Abstract |
7-11 |
|
第一章 绪论 |
11-15 |
|
1.1 研究意义 |
11-13 |
|
1.2 研究目标 |
13-14 |
|
1.3 内容安排 |
14-15 |
|
第二章 背景 |
15-30 |
|
2.1 搜索引擎 |
15-18 |
|
2.1.1 Web 搜索引擎分类 |
15-16 |
|
2.1.2 搜索引擎的工作原理 |
16-18 |
|
2.2 元搜索引擎 |
18-22 |
|
2.2.1 元搜索引擎的意义 |
19 |
|
2.2.2 元搜索引擎的体系结构 |
19-21 |
|
2.2.3 元搜索引擎的排序算法 |
21-22 |
|
2.3 向量空间模型 |
22-24 |
|
2.3.1 向量空间 |
22 |
|
2.3.2 权重 |
22-23 |
|
2.3.3 相关度 |
23-24 |
|
2.4 文档聚类 |
24-30 |
|
2.4.1 基于距离的聚类 |
24-27 |
|
2.4.2 基于短语的聚类 |
27-28 |
|
2.4.3 聚类算法失效 |
28-30 |
|
第三章 问题与解决方案 |
30-47 |
|
3.1 结果信息的抽取 |
30-32 |
|
3.1.1 原理 |
30-31 |
|
3.1.2 算法 |
31-32 |
|
3.2 搜索结果的去重 |
32-34 |
|
3.2.1 原理 |
32-33 |
|
3.2.2 算法 |
33-34 |
|
3.3 关键短语的提取 |
34-44 |
|
3.3.1 原理 |
34-36 |
|
3.3.2 数据结构 |
36-37 |
|
3.3.3 算法 |
37-44 |
|
3.4 基类的确定 |
44-47 |
|
3.4.1 原理 |
44-45 |
|
3.4.2 算法 |
45-47 |
|
第四章 设计与实现 |
47-62 |
|
4.1 系统设计 |
47 |
|
4.2 工作流程 |
47-58 |
|
4.2.1 获取数据 |
49-50 |
|
4.2.1.1 源数据获取 |
49 |
|
4.2.1.2 结果信息抽取 |
49-50 |
|
4.2.1.3 搜索结果去重 |
50 |
|
4.2.2 预处理 |
50-51 |
|
4.2.2.1 文档语种判断 |
50-51 |
|
4.2.2.2 单词处理 |
51 |
|
4.2.3 特征值提取 |
51-53 |
|
4.2.4 确定基类 |
53-56 |
|
4.2.4.1 词语文档矩阵构建 |
53-54 |
|
4.2.4.2 语义分析 |
54-55 |
|
4.2.4.3 基类生成 |
55-56 |
|
4.2.5 组织分类 |
56-58 |
|
4.2.5.1 分类聚合 |
56-57 |
|
4.2.5.2 文档划分 |
57-58 |
|
4.3 系统实现 |
58 |
|
4.4 系统测评 |
58-62 |
|
4.4.1 运行平台 |
58-59 |
|
4.4.2 运行结果 |
59-60 |
|
4.4.3 系统测试 |
60-62 |
|
第五章 总结与展望 |
62-63 |
|
5.1 工作总结 |
62 |
|
5.2 未来展望 |
62-63 |
|
参考文献 |
63-66 |
|
致谢 |
66-67 |
|
攻读学位期间发表的学术论文目录 |
67 |
|
| 【DOI】 | LunWen.ID:2.2008.366931 |