| 【中文题名】 | 基于变精度粗糙集的连续属性离散化方法及数据预处理方法 |
| 【英文题名】 | VPRS Based Approaches for Discretization of Continuous Attributes and Data Preprocessing |
| 【学科专业】 | 电路与系统 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2006-8-10 |
| 【中关键词】 | 数据挖掘,离散化,变精度粗糙集,多属性,预处理,鲁棒性 |
| 【英关键词】 | data mining,discretization,variable precision rough set,Multi-attribute,preprocessing,robustness, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 | 数据挖掘是当今国际人工智能和数据库研究最活跃的新兴领域之一,是数据库知识发现KDD(Knowledge discovery in databases)的核心,它旨在发现数据中隐藏的、未知的、潜在有用的知识,本质上是在大的数据集合中寻找数据间的规则和普遍模式。
连续属性的离散化(discretization)即实型空间向整型空间的映射,是许多数据挖掘过程中数据预处理阶段的重要步骤。由于它在减少后继算法的时空复杂度,提高系统的鲁棒性上的重要作用而被广泛研究。
由Pawlak(1982)提出的粗糙集(Rough set)理论是关于数据推理的强大工具,这个方法已经被成功应用于机器学习、知识获取、决策分析、知识发现、模式识别、专家系统和决策支持系统等领域。粗糙集理论的特点是,无需提供除待求解问题所需处理数据集合之外的任何先验信息。
本文主要研究了以下问题:
1)基于变精度粗糙集的连续属性离散化。变精度粗糙集模型是由W.Ziarko在基本粗糙集理论的基础上引入误差因子β而得到的,引入β因子的目的在于将精确的二元等价关系推广为一般的二元关系。本文提出了基于变精度粗糙集模型的连续属性离散化的方法,其特点在于可... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
Abstract |
4-7 |
|
引言 |
7-10 |
|
1 数据预处理 |
7-8 |
|
2 目前的离散化算法 |
8 |
|
3 粗糙集理论 |
8-9 |
|
4 本文的主要研究工作 |
9-10 |
|
第一章 离散化 |
10-20 |
|
1.1 数据挖掘 |
10-11 |
|
1.1.1 背景 |
10 |
|
1.1.2 主要过程 |
10-11 |
|
1.2 数据预处理 |
11-13 |
|
1.2.1 数据预处理的功能 |
11-13 |
|
1.3 离散化 |
13-20 |
|
1.3.1 背景 |
13-14 |
|
1.3.2 过程 |
14-15 |
|
1.3.3 离散化方法 |
15-19 |
|
1.3.4 离散化框架 |
19-20 |
|
第二章 基于变精度粗糙集的连续属性离散化 |
20-27 |
|
2.1 粗糙集 |
20-22 |
|
2.1.1 背景 |
20 |
|
2.1.2 基本概念 |
20-21 |
|
2.1.3 变精度粗糙集 |
21-22 |
|
2.2 基于变精度粗糙集的连续属性离散化 |
22-27 |
|
2.2.1 方法和过程 |
22-26 |
|
2.2.2 结论 |
26-27 |
|
第三章 基于多连续属性离散化的数据预处理方法 |
27-32 |
|
3.1 提出问题 |
27-29 |
|
3.1.1 离散化问题 |
27 |
|
3.1.2 具体问题 |
27-29 |
|
3.2 基于多连续属性离散化的预处理方法 |
29-31 |
|
3.2.1 方法描述 |
29 |
|
3.2.2 实验说明 |
29-31 |
|
3.3 结论 |
31-32 |
|
结 语 |
32-33 |
|
参考文献 |
33-35 |
|
致 谢 |
35 |
|
| 【DOI】 | LunWen.ID:2.2008.387867 |