| 【中文题名】 | 面向高维数据的变密度空间聚类研究 |
| 【英文题名】 | Research on Varying-Density Spatial Clustering in High-Dimensional Data |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-3 |
| 【中关键词】 | 数据挖掘,聚类,基于密度聚类,高维,变密度, |
| 【英关键词】 | Data Mining,Clustering,Density-based Clustering,High-Dimensional,Varying Density, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
伴随着信息技术的飞速发展和广泛应用,海量的高维数据被冗余地存储,如何从数据的沙漠中挖掘出宝贵的知识业已成为当前最迫切的需求。聚类(Clustering)分析作为数据挖掘领域中的一个重要分支,研究从海量未知数据中挖掘出有用的知识,在模式识别、图像处理、市场研究以及生命科学等众多学科领域具有广泛的应用前景。然而,现实世界中数据的高维、分布稀疏及不可避免的噪声普遍存在,特别是数据的变密度分布,使得传统聚类算法难以使用。为此,设计能高效处理变密度高维数据的聚类模型和算法成为本文的研究核心。
本文的主要工作如下:
(1)深入探讨和分析了聚类分析的概念、要求及所用数据类型,详细介绍各聚类方法的思想、原理及实现,及其各自的优势与存在的不足。
(2)针对基于密度聚类算法的优势及其存在的不足和缺陷,引入层次树模型描述子聚类信息并利用基于密度的聚类思想进行聚类探测,形成算法DCHT。算法不仅具备基于密度聚类的优势性能,而且从根本上摒除该类算法因结构设计粗糙而导致的种种不足。
(3)针对传统聚类方法难以处理变密度空间聚类的现状,引入改进的层次树结构描述数据集分布信息,并动态、自适应地调整局... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-12 |
|
第一章 绪论 |
12-23 |
|
1.1 数据库知识发现 |
12-16 |
|
1.1.1 KDD的提出 |
12-13 |
|
1.1.2 KDD的定义和处理过程 |
13-15 |
|
1.1.3 KDD的特性 |
15-16 |
|
1.2 数据挖掘 |
16-22 |
|
1.2.1 数据挖掘的定义 |
16 |
|
1.2.2 数据挖掘的对象 |
16-17 |
|
1.2.3 数据挖掘的功能 |
17-18 |
|
1.2.4 数据挖掘的方法 |
18-21 |
|
1.2.5 数据挖掘面临的挑战及研究热点 |
21 |
|
1.2.6 数据挖掘的发展方向 |
21-22 |
|
1.3 本文的研究内容与组织 |
22-23 |
|
第二章 数据挖掘中的聚类分析 |
23-36 |
|
2.1 聚类分析概述 |
23-26 |
|
2.1.1 聚类的概念和应用 |
23-25 |
|
2.1.2 聚类分析的典型评价指标 |
25-26 |
|
2.2 聚类分析中的数据类型 |
26-32 |
|
2.2.1 基本数据结构 |
26-27 |
|
2.2.2 区间标度变量 |
27-28 |
|
2.2.3 二元变量 |
28-30 |
|
2.2.4 标称、序数和比例标度变量 |
30-31 |
|
2.2.5 混合类型的变量 |
31-32 |
|
2.3 主要聚类方法概述 |
32-35 |
|
2.3.1 划分方法(Partitioning Methods) |
32-33 |
|
2.3.2 层次方法(Hierarchical Methods) |
33 |
|
2.3.3 基于密度的方法(Density-Based Methods) |
33-34 |
|
2.3.4 基于网格的方法(Grid-Based Methods) |
34 |
|
2.3.5 基于模型的方法(Model-Based Methods) |
34-35 |
|
2.4 小结 |
35-36 |
|
第三章 面向高维数据的聚类研究 |
36-45 |
|
3.1 高维聚类研究现状 |
36-39 |
|
3.1.1 基于密度的聚类算法 |
36-38 |
|
3.1.2 改进工作 |
38-39 |
|
3.2 基于层次树的高效密度聚类算法 |
39-42 |
|
3.2.1 相关定义 |
39-40 |
|
3.2.2 算法描述 |
40-42 |
|
3.3 算法性能分析 |
42 |
|
3.4 实验结果 |
42-44 |
|
3.5 本章小结 |
44-45 |
|
第四章 变密度空间聚类研究 |
45-59 |
|
4.1 变密度聚类的研究意义 |
45-46 |
|
4.2 变密度聚类的研究现状 |
46-47 |
|
4.3 SVC聚类算法 |
47-53 |
|
4.3.1 相关定义 |
47 |
|
4.3.2 SVC算法描述 |
47-53 |
|
4.4 性能分析及实验结果 |
53-58 |
|
4.4.1 算法性能分析 |
54 |
|
4.4.2 实验结果 |
54-58 |
|
4.5 本章小结 |
58-59 |
|
第五章 结束语 |
59-61 |
|
5.1 已完成工作 |
59-60 |
|
5.2 下一步工作 |
60-61 |
|
参考文献 |
61-67 |
|
研究生期间主要科研工作及成果 |
67-68 |
|
发表学术论文 |
68 |
|
| 【DOI】 | LunWen.ID:2.2008.388778 |