| 【中文题名】 | 基于聚类的网页相关性挖掘技术研究 |
| 【英文题名】 | Research on Web Relevant Mining Technology Based on Cluster |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2005-7-7 |
| 【中关键词】 | 聚类,网页挖掘,相关性挖掘,特征抽取,向量空间模型, |
| 【英关键词】 | Cluster,Web mining,Relevant mining,Feature extract,Vector space model, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 | 随着互联网的普及和计算机技术的发展,从互联网上获取满足用户需求的信息越来越困难。为了帮助用户有效地发现、选择、搜寻感兴趣的信息,提高用户检索信息的响应速度,从海量的网页信息中发现它们之间的关联,从而得到有用的知识,人们将传统的数据挖掘技术和网页结合起来,提出了网页挖掘技术。
网页挖掘中的一个主要问题是对网页进行相关性挖掘。网页的相关性挖掘首先从各种网页文本对象中抽取出能反映其本质的重要特征,将这些网页文本对象映射成高维特征空间中的点,然后通过高维空间中的距离计算来完成。通过网页文本的相关性挖掘,可以将网页文本集合中相似的文本联系起来,便于从中发现有用的知识。
本文首先从基本概念入手,阐明了数据挖掘和网页挖掘的主要内容。然后,对数据挖掘的重要工具聚类分析算法的相关部分(如聚类分析中的数据表示、距离度量和常用算法)进行了深入的分析和讨论。接下来逐一解决了网页文本内容特征抽取过程中的三个关键性问题:如何为网页文本内容的特征选择合适的模型、如何抽取出的合适的特征、如何为网页的特征赋予一个合适的权重。在此基础之上,设计实现了一个网页相关性挖掘的原型系统。 |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
Abstract |
4-5 |
|
目录 |
5-7 |
|
第一章 引言 |
7-9 |
|
1.1 研究的背景和意义 |
7-8 |
|
1.2 论文的组织 |
8-9 |
|
第二章 数据挖掘技术和网页挖掘技术概述 |
9-15 |
|
2.1 数据挖掘技术 |
9-12 |
|
2.1.1 数据挖掘技术的产生 |
9 |
|
2.1.2 数据挖掘的定义 |
9-10 |
|
2.1.3 数据挖掘的研究内容 |
10 |
|
2.1.4 数据挖掘的功能分类 |
10-11 |
|
2.1.5 数据挖掘的发展方向 |
11-12 |
|
2.2 网页挖掘技术 |
12-14 |
|
2.2.1 网页挖掘的定义 |
12 |
|
2.2.2 网页挖掘的分类 |
12-13 |
|
2.2.3 网页挖掘的挑战 |
13-14 |
|
2.3 网页挖掘与数据挖掘的区别 |
14-15 |
|
第三章 聚类分析算法 |
15-26 |
|
3.1 聚类分析概述 |
15-18 |
|
3.2 聚类分析中的数据表示 |
18-19 |
|
3.2.1 数据矩阵 |
18-19 |
|
3.2.2 差异矩阵 |
19 |
|
3.3 聚类分析中距离度量 |
19-21 |
|
3.3.1 数值型变量的距离度量 |
19-20 |
|
3.3.2 二值变量的距离度量 |
20-21 |
|
3.4 聚类分析算法分类 |
21-22 |
|
3.5 常用的聚类分析方法 |
22-26 |
|
3.5.1 k-means 算法 |
22-23 |
|
3.5.2 k-medoids 算法 |
23-24 |
|
3.5.3 层次聚类算法 |
24-25 |
|
3.5.4 动态聚类算法 |
25-26 |
|
第四章 网页文本内容的特征抽取 |
26-37 |
|
4.1 检索模型的比较和选择 |
26-28 |
|
4.2 权重的计算 |
28-30 |
|
4.3 特征的选择 |
30-32 |
|
4.4 重复短语的识别 |
32-37 |
|
第五章 网页相关性挖掘原型系统实现 |
37-42 |
|
5.1 系统设计 |
37-40 |
|
5.1.1 系统的架构和功能设计 |
37-38 |
|
5.1.2 系统的接口设计 |
38-40 |
|
5.2 系统运行结果 |
40-41 |
|
5.3 系统评价 |
41-42 |
|
第六章 结论 |
42-43 |
|
参考文献 |
43-45 |
|
后记 |
45-46 |
|
在学期间公开发表论文及著作情况 |
46 |
|
| 【DOI】 | LunWen.ID:2.2008.370662 |