| 【中文题名】 | 聚类分析中k-均值方法的研究 |
| 【英文题名】 | Research on K-means Algorithm in Clustering Analysis |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-21 |
| 【中关键词】 | 数据挖掘,聚类,分析,算法,k-means, |
| 【英关键词】 | Data Mining,Clustering,Analysis,Algorithm,k-means, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机软件>程序设计、软件工程>程序设计 |
| 【论文摘要】 |
数据挖掘是从庞大的数据集或数据库中提炼有用信息的科学。它汇集了统计学、机器学习、数据库、模式识别、人工智能等学科的内容,是一门新兴的交叉学科。
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务上、还是在市场分析生物学、WEB文档分类等领域中都得到了充分的应用。目前,聚类算法大体上分为划分的方法、层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题、最优解问题、算法对输入参数的依赖性问题。
本文研究基于划分的聚类方法中有效选取初值的问题。主要工作如下:
首先,概括介绍了聚类分析的基本原理,并对聚类分析中的基本数据类型进行了描述。
其次,在对各种聚类算法进行简单描述后,提出了本文所涉及到的基于划分的聚类算法,并提出了本文中的算法对聚类分析中普遍存在的初始中心选择问题的处理方式。
最后,给出了改进的基于划分的聚类方法,以及其中涉及到的最小生成树算法的基本思想。并通过实验有效验证了算法的可行性。 |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-9 |
|
第1章 绪论 |
9-20 |
|
1.1 论文研究的背景及意义 |
9-10 |
|
1.2 相关领域内的研究动态 |
10-18 |
|
1.2.1 聚类分析概述 |
10-12 |
|
1.2.2 聚类方法分类 |
12-16 |
|
1.2.3 数据挖掘对聚类的要求 |
16-18 |
|
1.3 本文的主要工作及内容 |
18-20 |
|
第2章 基于划分的聚类方法 |
20-35 |
|
2.1 划分聚类概述 |
20-21 |
|
2.2 数据类型及相似度度量方法 |
21-29 |
|
2.2.1 聚类分析中的数据类型 |
21-22 |
|
2.2.2 聚类分析中的相似度度量方法 |
22-29 |
|
2.3 聚类准则函数 |
29-31 |
|
2.4 典型的划分聚类方法 |
31-34 |
|
2.4.1 k-means方法 |
31-32 |
|
2.4.2 k-medoids方法 |
32-33 |
|
2.4.3 大型数据库中的划分方法 |
33-34 |
|
2.5 本章小结 |
34-35 |
|
第3章 k-means算法及改进 |
35-46 |
|
3.1 k-means算法的思想及流程 |
35-36 |
|
3.1.1 原始k-means算法 |
35 |
|
3.1.2 k-means算法流程 |
35-36 |
|
3.2 算法的特点和面临的主要问题 |
36-38 |
|
3.3 选取初值的现有方法 |
38-39 |
|
3.4 k-means算法的改进 |
39-45 |
|
3.4.1 基本算法思想 |
39-41 |
|
3.4.2 改进后的k-means算法流程: |
41-45 |
|
3.5 本章小结 |
45-46 |
|
第4章 实验分析及未来研究方向 |
46-53 |
|
4.1 实验结果分析 |
46-51 |
|
4.2 新的研究方向 |
51 |
|
4.3 本章小结 |
51-53 |
|
结论 |
53-54 |
|
参考文献 |
54-58 |
|
攻读硕士学位期间发表的论文和取得的科研成果 |
58-59 |
|
致谢 |
59 |
|
| 【DOI】 | LunWen.ID:2.2008.388816 |