| 【中文题名】 | 基于多分类器集成的聚类算法研究 |
| 【英文题名】 | Research on Clustering Algorithm Based on Multiple Classifiers Combination |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-12 |
| 【中关键词】 | 数据挖掘,聚类分析,多分类器集成,聚类集成,, |
| 【英关键词】 | Data Mining,Clustering,Multiple Classifiers Combination,Clustering ensemble, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
随着网络技术和数据库技术的快速发展,数据挖掘技术应运而生。聚类分析是数据挖掘中的重要分支之一,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web文档分类、图像处理等其它领域,都得到了有效的应用。
由于混合型数据集自身的复杂性,在传统的聚类算法中适合于处理这种数据集的算法较少,而且聚类的效果也不佳。另外,聚类簇数的确定一直是聚类分析难以解决的问题。近年来,随着集成学习技术在分类和预测领域的成功应用,形成了较成熟的多分类器集成技术,然而由于在聚类分析中缺乏数据集的先验知识,导致聚类集成的研究起步较晚,在很多方面还值得进一步研究。目前的聚类集成算法大多是一种并联式结构,由于需要对聚类成员的聚类结果进行匹配和融合,所以时间复杂度较高;同时聚类簇数的确定问题依然存在,特别是聚类成员的簇数、最终的聚类簇数以及两者之间的关系更是一个难以确定的问题。
针对上述问题,本论文借鉴了多分类器集成技术,以k-prototype算法为基础聚类算法,设计了一种多层次的聚类集成算法。该算法适合于混合型数据集,采用了级联式结构,避免了匹配和融合的过程,并且只需给... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-9 |
|
第一章 绪论 |
9-13 |
|
1.1 引言 |
9 |
|
1.2 数据挖掘技术 |
9-10 |
|
1.3 数据挖掘中的聚类分析 |
10-11 |
|
1.3.1 聚类分析的意义 |
10 |
|
1.3.2 聚类分析的研究现状 |
10-11 |
|
1.4 论文的研究范围及目的 |
11 |
|
1.5 论文的内容安排 |
11-13 |
|
第二章 聚类分析的基础知识 |
13-21 |
|
2.1 聚类分析的定义 |
13 |
|
2.2 聚类分析中的数据对象 |
13-15 |
|
2.2.1 数据的类型 |
13-14 |
|
2.2.2 数据的变换 |
14-15 |
|
2.3 相似度的度量方式 |
15-17 |
|
2.3.1 数值型数据集(numerical data) |
15-16 |
|
2.3.2 类别型数据集(categorical data) |
16-17 |
|
2.3.3 混合型数据集(mixed data) |
17 |
|
2.4 主要的聚类算法及存在的问题 |
17-20 |
|
2.4.1 主要的聚类算法 |
17-19 |
|
2.4.2 存在的问题 |
19-20 |
|
2.5 本章小结 |
20-21 |
|
第三章 集成学习技术 |
21-30 |
|
3.1 多分类器集成技术 |
21 |
|
3.2 多分类器集成的组织结构 |
21-23 |
|
3.2.1 级联结构 |
22-23 |
|
3.2.2 并联结构 |
23 |
|
3.3 多分类器集成的主要算法 |
23-26 |
|
3.4 聚类集成的研究现状 |
26-29 |
|
3.4.1 聚类成员的产生 |
26-27 |
|
3.4.2 共识函数的设计 |
27-29 |
|
3.4.3 存在的问题 |
29 |
|
3.5 本章小结 |
29-30 |
|
第四章 多层次聚类集成算法 |
30-38 |
|
4.1 多层次的聚类策略 |
30-31 |
|
4.2 多层次的聚类集成算法 |
31-37 |
|
4.2.1 k-prototype算法 |
31-33 |
|
4.2.2 纯度阈值 |
33 |
|
4.2.3 聚类多叉树的构建 |
33-34 |
|
4.2.4 再聚类时属性的选择 |
34-36 |
|
4.2.5 算法的描述 |
36-37 |
|
4.3 本章小结 |
37-38 |
|
第五章 实验结果及分析 |
38-50 |
|
5.1 实验数据集 |
38 |
|
5.2 实验环境 |
38 |
|
5.3 实验性能指标 |
38-39 |
|
5.4 实验的对比算法 |
39-41 |
|
5.4.1 基于初始簇中心的选择性聚类集成算法 |
39-40 |
|
5.4.2 基于不同类型属性的聚类集成算法 |
40-41 |
|
5.5 实验结果及分析 |
41-48 |
|
5.5.3 再聚类有效性验证实验 |
41-43 |
|
5.5.4 聚类效果对比实验 |
43-45 |
|
5.5.5 时间效率对比实验 |
45-47 |
|
5.5.6 分类预测能力对比实验 |
47-48 |
|
5.5.7 实验小结 |
48 |
|
5.6 本章小结 |
48-50 |
|
第六章 总结与展望 |
50-52 |
|
6.1 本文总结 |
50 |
|
6.2 展望 |
50-52 |
|
参考文献 |
52-55 |
|
致谢 |
55 |
|
| 【DOI】 | LunWen.ID:2.2008.389043 |