| 【中文题名】 | 连续属性的离散化及知识获取的研究 |
| 【英文题名】 | Research on Discretization of Continuous Attributes |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-7-25 |
| 【中关键词】 | 信息系统,连续属性,属性离散化,语言摘要,语言规则, |
| 【英关键词】 | Information system,Continuous attributes,Attribute discretization,Language summary,Language rule, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>专家系统、知识工程> |
| 【论文摘要】 |
由于计算机的迅速普及和互联网的广泛流行,产生了数据和信息的汪洋大海。要想从中获取隐藏、有用的知识,就要使用各种学习算法和方法。而许多学习算法要求输入的属性值是离散的,由此引出了许多连续值属性的离散化的方法,如根据领域专家的经验给出相应的区间;或根据某种划分原则对输入空间进行划分,给出离散点进行离散化。根据是否利用类信息,离散化方法可分为有监督和无监督的方法;根据是对所有连续属性同时离散化还是单个属性单独离散化,可分为全局方法和局部方法;也可根据划分是在分类之前还是分类时做出的而分为静态方法和动态方法。
常用的离散化的策略有:空间等分法、自适应方法、等频率区间法、基于类信息熵的方法等,在众多的离散化方法中,不论是哪一种,都很难得到一个直观的、容易理解的离散结果。
在本文中,首先介绍了各种常见的离散化算法和方法。在此基础上,本文提出一个基于模糊语言的数据语言摘要和语言规则的抽取算法,通过对数据库的数据语言摘要的抽取和语言规则的抽取,达到对连续属性模糊离散化的目的。该离散化过程具有如下优点:
(1)所得结果直观明了。若直接观察数据库,难以发现其中的知识。本文中提出的离散化算法也因为... |
| 【论文题纲】 |
|
摘要 |
2-4 |
|
Abstract |
4-8 |
|
第一章 前言 |
8-17 |
|
1.1 数据的迅速膨胀 |
8-10 |
|
1.2 数据挖掘是知识获取的新技术 |
10-11 |
|
1.3 数据挖掘是多学科交叉 |
11-12 |
|
1.4 属性离散化的意义 |
12-13 |
|
1.5 国内外研究简述 |
13-15 |
|
1.6 本文主要研究内容 |
15-16 |
|
1.7 本文的内容结构 |
16-17 |
|
第二章 基础知识 |
17-34 |
|
2.1 粗糙集基础知识 |
17-20 |
|
2.1.1 粗糙集理论的基本概念 |
17-20 |
|
2.1.2 粗糙集模型的应用-从数据库中发现知识 |
20 |
|
2.2 信息系统与知识发现 |
20-25 |
|
2.2.1 隶属函数的定义 |
20-21 |
|
2.2.2 信息系统的定义 |
21-22 |
|
2.2.3 信息系统需要研究的问题 |
22-23 |
|
2.2.4 决策信息系统简述 |
23-24 |
|
2.2.5 决策信息系统与知识发现 |
24-25 |
|
2.3 属性离散化原理 |
25-27 |
|
2.4 常见离散化算法 |
27-31 |
|
2.5 数据挖掘的一般流程 |
31-34 |
|
2.5.1 数据挖掘环境示意图 |
31 |
|
2.5.2 数据挖掘过程图 |
31-32 |
|
2.5.3 数据挖掘的本质 |
32-34 |
|
第三章 信息系统的语言命题抽取 |
34-38 |
|
3.1 模糊聚类的数学描述 |
34-35 |
|
3.2 从信息系统中抽取简单语言命题 |
35-38 |
|
3.2.1 简单语言命题的结构 |
35 |
|
3.2.2 简单语言命题抽取过程 |
35-38 |
|
第四章 决策信息系统的规则抽取 |
38-45 |
|
4.1 抽取简单语言规则 |
38-40 |
|
4.1.1 简单语言规则的格式 |
38-39 |
|
4.1.2 简单语言规则抽取过程 |
39-40 |
|
4.2 抽取复杂语言规则 |
40-45 |
|
4.2.1 复杂语言规则的格式 |
40 |
|
4.2.2 复杂语言规则的抽取过程 |
40-45 |
|
结论 |
45-46 |
|
参考文献 |
46-49 |
|
攻读学位期间的科研成果 |
49-51 |
|
致谢 |
51-52 |
|
附录: Matlab验证程序 |
52-62 |
|
| 【DOI】 | LunWen.ID:2.2008.388694 |