| 【论文摘要】 | 数据挖掘(DM-Data Mining)是运用基于计算机的方法,包括其它新技术,从大量的数据中搜寻有价值的、非同寻常的新信息的过程。
数据挖掘的核心技术算法主要有统计分析方法、神经网络、决策树方法、遗传算法等。其中决策树方法是一种广泛使用的用于分类的方法,它通过一组无次序,无规则的实例推理出决策树表示形式的分类规则,从而找到一些有价值的、潜在的信息。
目前很多决策树构造方法得到的决策树,都具有较好的精度,但是存在着计算量大、泛化能力受限制的缺点,而粗糙集理论是由波兰数学家Z.Pawlak提出的继概率论、模糊集、证据理论之后的又一个处理不确定性知识的数学工具,近年来其有效性已在许多科学与工程领域的成功应用中得到证实。基于此,决策树分类方法引入粗糙集理论,本文通过理论分析和实验验证,得出基于粗糙集理论的决策树分类方法取得了较好的结果。通过分析基于粗糙集理论的决策树后剪枝方法,发现各种后剪枝方法存在只注重整体的缺点并提出了解决策略—基于叶结点的决策树剪枝方法。本文具体内容安排如下:
1决策树构造简单介绍决策树,主要讲述著名的决策树构造方法ID3算法及由其改进并得到广泛使用的C4.5算法。
2决策树剪... |