| 【中文题名】 | Web文档聚类系统的设计与实现 |
| 【英文题名】 | Design and Implement of Web Document Clustering System |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2006-8-2 |
| 【中关键词】 | 数据挖掘,聚类分析,文本挖掘,预处理,聚类组合,可视化 |
| 【英关键词】 | Data Mining,Clustering Analysis,Document Mining,Preprocessing,Clustering Combination,Visualization,Euclidean Distance, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 | 我们生活在一个信息化的时代,各种信息急剧膨胀,为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。聚类分析在数据挖掘研究中占有重要的位置。所谓聚类,就是将物理或抽象对象的集合划分成为由类似的对象组成的多个类的过程。
本文首先对Web文档聚类中的数据表示方法、特征提取、权值计算进行了系统的研究,并开发了一整套从网上下载新闻、提取新闻正文、提取词干、计算权值、聚类、聚类结果可视化的软件,软件采用了XML和多线程技术。
介绍和分析了K-means聚类算法,并对Web文档聚类中的欧氏距离进行改进。改进后的欧氏距离与传统欧氏距离相比,提高了聚类的质量和速度。改进的欧氏距离与文本聚类中常用的余弦距离效果相当。
提出一种基于交集的聚类组合算法,借鉴了选举投票的思想。给定同一数据集的不同聚类结果,此算法先求出不同聚类结果中每个簇的对应关系,然后计算这几个聚类结果中对应簇的交集,对剩余的有争议对象进行投票,最后把投票之后仍未确定归属的对象分配给最近的聚类中心,或者不经过投票直接将有争议的对象分配给最近的聚类中心。
实现了随机点图、顺序点图、电子云图、条形图... |
| 【论文题纲】 |
|
摘要 |
4-5 |
|
Abstract |
5-7 |
|
目录 |
7-9 |
|
第1章 绪论 |
9-12 |
|
1.1 本文研究背景 |
9-10 |
|
1.2 国内外研究现状 |
10 |
|
1.3 本文主要内容 |
10-12 |
|
第2章 数据挖掘 |
12-21 |
|
2.1 数据挖掘概述 |
12-14 |
|
2.2 数据挖掘的任务 |
14-16 |
|
2.3 WEB挖掘 |
16-21 |
|
2.3.1 Web文本挖掘 |
17-18 |
|
2.3.2 文本特征表示 |
18-19 |
|
2.3.3 计算特征词条的权值 |
19 |
|
2.3.4 特征集的缩减 |
19-21 |
|
第3章 聚类分析 |
21-26 |
|
3.1 聚类分析概述 |
21-23 |
|
3.2 欧氏距离和余弦距离 |
23 |
|
3.3 聚类算法的分类 |
23-25 |
|
3.4 聚类结果评价 |
25-26 |
|
第4章 WEB文档聚类系统的设计与实现 |
26-58 |
|
4.1 RSS方式下载新闻 |
26-29 |
|
4.1.1 什么是 RSS |
26-27 |
|
4.1.2 RSS阅读器 |
27-29 |
|
4.2 提取新闻正文 |
29-32 |
|
4.3 转换为对应数字 |
32-36 |
|
4.4 计算权值 TD-IDF算法 |
36-40 |
|
4.5 聚类 |
40-52 |
|
4.5.1 Web文档的K-means聚类 |
41-44 |
|
4.5.2 基于交集的聚类组合算法 |
44-52 |
|
4.6 聚类结果可视化 |
52-58 |
|
4.6.1 随机点图 |
52-53 |
|
4.6.2 顺序点图 |
53-54 |
|
4.6.3 电子云图 |
54-55 |
|
4.6.4 条形图 |
55-56 |
|
4.6.5 饼形图 |
56-58 |
|
第5章 实验结果分析 |
58-62 |
|
5.1 测试用的数据集 |
58 |
|
5.2 基于交集的聚类组合算法 |
58-62 |
|
结论 |
62-64 |
|
致谢 |
64-65 |
|
参考文献 |
65-70 |
|
攻读硕士学位期间所发表的论文 |
70 |
|
| 【DOI】 | LunWen.ID:2.2008.387850 |