| 【中文题名】 | 专题搜索引擎关键技术的研究 |
| 【英文题名】 | Research on Pivotal Technology of Focused Search Engine |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-7-30 |
| 【中关键词】 | 信息聚类,专题搜索引擎,汉语自动分词,向量空间模型,专题词典, |
| 【英关键词】 | Information clustering,Focused search Engines,Chinese word segmentation,Vector space model,Special dictionary, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 |
| 【论文摘要】 |
随着Internet技术的飞速发展,WWW已成为人们进行信息交流不可缺少的巨大的信息空间。面对如此巨大的海量信息,人们在寻找自己所需的信息时常常迷失方向。如何快速、准确的从浩瀚的信息资源中找到自己所需的信息已成为困扰用户的一大难题。
本课题针对现有搜索引擎的不足,提出专题搜索引擎的解决方案,实现搜索引擎的专题化需求,并就方案中涉及到的一系列理论和技术问题进行研究,主要包括:
首先,改进专题搜索引擎开发模型框架,并给出工作原理,在元搜索引擎的基础上,实现搜索引擎的专题性服务。
其次,文本自动分类技术是专题搜索引擎开发的一个重要环节,针对文本自动分类中存在的不足,重点论述了对特征提取技术、特征加权技术、词干提取技术和日志分析技术的改进和完善。从而有效地保证了设计的专题搜索引擎在查全率和查准率方面的提高。
然后,分词技术是专题搜索引擎的一个重要研究方面,本文在搜索引擎分词方面采用了一种基于数据视图的实用分词匹配方法,该方法实现简单,效果较好。同时,构造了专题分词词典,为用户进行检索提供了便利,提高了工作效率。
最后,在分析了传统k平均聚类方法不足的基础上,提出了一种... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-10 |
|
第1章 绪论 |
10-18 |
|
1.1 研究背景和意义 |
10-11 |
|
1.2 专题搜索引擎概述 |
11-12 |
|
1.3 目前的研究状况 |
12-14 |
|
1.4 搜索引擎的现存问题及解决方法 |
14-15 |
|
1.4.1 搜索引擎现存问题 |
14-15 |
|
1.4.2 解决方法 |
15 |
|
1.5 本文的研究内容和组织结构 |
15-18 |
|
1.5.1 研究内容 |
15-16 |
|
1.5.2 本文组织结构 |
16-18 |
|
第2章 专题搜索引擎相关技术的研究 |
18-27 |
|
2.1 元搜索引擎 |
18-19 |
|
2.1.1 元搜索引擎工作原理 |
18-19 |
|
2.1.2 元搜索引擎与传统搜索引擎的区别 |
19 |
|
2.2 向量空间模型技术 |
19-21 |
|
2.2.1 向量空间模型介绍 |
19-20 |
|
2.2.2 存在问题 |
20-21 |
|
2.3 文本聚类的研究 |
21-26 |
|
2.3.1 文本聚类技术 |
22 |
|
2.3.2 文本聚类算法 |
22-26 |
|
2.4 本章小结 |
26-27 |
|
第3章 专题搜索引擎的构建 |
27-39 |
|
3.1 专题搜索引擎分析 |
27-30 |
|
3.1.1 专题搜索引擎特点 |
27-28 |
|
3.1.2 专题搜索引擎的工作原理 |
28-30 |
|
3.2 专题搜索引擎总体框架图 |
30-31 |
|
3.3 系统各部分模块说明 |
31-38 |
|
3.3.1 信息采集与更新模块 |
31-36 |
|
3.3.2 信息处理和查询模块 |
36-38 |
|
3.4 本章小结 |
38-39 |
|
第4章 专题搜索引擎文本自动分类和专题分词技术 |
39-52 |
|
4.1 自动分类技术 |
39-44 |
|
4.1.1 特征提取 |
40-41 |
|
4.1.2 基于VSM的特征加权技术的改进 |
41-43 |
|
4.1.3 英文搜索的词干提取技术的改善 |
43 |
|
4.1.4 用户查询日志分析 |
43-44 |
|
4.2 中文的自动分词技术 |
44-49 |
|
4.2.1 分词技术分析 |
44-46 |
|
4.2.2 分词技术及其实现 |
46-47 |
|
4.2.3 一种适合于专题搜索引擎的分词方法 |
47-49 |
|
4.3 专题分词词典的构造 |
49-51 |
|
4.3.1 专题分词词典的构造过程 |
49-50 |
|
4.3.2 专题分词词典的组成 |
50-51 |
|
4.4 本章小结 |
51-52 |
|
第5章 基于向量空间模型的文本聚类研究 |
52-65 |
|
5.1 信息聚类技术的基本理论 |
52-54 |
|
5.1.1 信息聚类与分类的关系 |
52 |
|
5.1.2 主要的聚类方法 |
52-54 |
|
5.2 文本聚类算法的设计 |
54-64 |
|
5.2.1 聚类模型的设计 |
54-58 |
|
5.2.2 聚类算法的设计 |
58-61 |
|
5.2.3 实验结果与分析 |
61-64 |
|
5.3 本章小结 |
64-65 |
|
结论 |
65-67 |
|
参考文献 |
67-72 |
|
攻读硕士学位期间承担的科研任务与主要成果 |
72-73 |
|
致谢 |
73-74 |
|
作者简介 |
74 |
|
| 【DOI】 | LunWen.ID:2.2008.368260 |