| 【中文题名】 | 基于WEKA平台的决策树算法设计与实现 |
| 【英文题名】 | Design and Implementation of Decision Tree Classifier Based on WEKA |
| 【学科专业】 | 通信与信息系统 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-16 |
| 【中关键词】 | 数据挖掘,决策树算法,WEKA,SPRINT,多值属性多类标数据决策树算法, |
| 【英关键词】 | Data mining,Decision tree classifier,WEKA,SPRINT,Multi-valued and multi-labled decision tree, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
决策树方法在数据挖掘技术中具有很重要的作用,随着数据挖掘分类技术的广泛应用,决策树算法取得了众多研究成果,本文在深入研究和分析了主流决策树算法的基础上,基于WEKA数据挖掘平台进行了决策树算法的设计与实现,不仅有效的利用了已有数据挖掘工具,而且就已有决策树算法较少涉及的领域进行了大胆的研究和创新,提出了一种新的多值属性多类标数据决策树算法,并进行了新算法的设计与实现工作。
首先,详细介绍了开放性数据挖掘平台WEKA的功能及结构,在对决策树算法性能评价标准进行研究的基础上,本文基于WEKA平台进行了经典决策树算法性能分析的实验,并就算法的评价指标对不同算法的性能进行了比较与分析。
其次,本文对经典决策树算法的实现原理进行了深入研究,在认真学习了WEKA系统结构的基础上,将SPRINT算法在WEKA平台上实现了封装和应用,并对封装后的算法性能进行了测试,有效的利用已有数据挖掘工具实现了个性化算法的设计及应用。
为了提高对多值属性多类标数据的处理能力,本文在已有决策树算法的基础上,结合应用统计学、概率论等数学原理,提出了一种新的多值属性多类标数据决策树算法SSC。SSC算法在属性分... |
| 【论文题纲】 |
|
摘要 |
4-5 |
|
ABSTRACT |
5-8 |
|
第一章 绪论 |
8-12 |
|
1.1 研究背景及意义 |
8-9 |
|
1.2 国内外研究现状及进展 |
9-10 |
|
1.3 论文组织结构 |
10-12 |
|
第二章 WEKA平台下的决策树算法性能分析 |
12-30 |
|
2.1 决策树技术 |
12-16 |
|
2.1.1 分类 |
13-14 |
|
2.1.2 决策树 |
14-15 |
|
2.1.3 决策树算法 |
15-16 |
|
2.2 WEKA平台的介绍 |
16-22 |
|
2.2.1 ARFF文件结构 |
17-19 |
|
2.2.2 Weka Knowledge Explorer图形用户界面简介 |
19-21 |
|
2.2.3 各种图形用户界面功能简介 |
21 |
|
2.2.4 核心数据结构 |
21-22 |
|
2.3 WEKA平台下决策树算法性能分析 |
22-29 |
|
2.3.1 决策树算法评价指标 |
22-23 |
|
2.3.2 决策树算法性能分析实验 |
23-25 |
|
2.3.3 决策树算法性能分析结果 |
25-29 |
|
2.4 本章小结 |
29-30 |
|
第三章 SPRINT算法在WEKA平台上的实现 |
30-51 |
|
3.1 Eclipse开发平台 |
30-31 |
|
3.2 SPRINT算法分析 |
31-37 |
|
3.2.1 数据结构 |
32-36 |
|
3.2.2 SPRINT的性能 |
36-37 |
|
3.3 基于 WEKA平台的 SPRINT算法设计 |
37-44 |
|
3.3.1 算法流程 |
42 |
|
3.3.2 关键成员变量和成员方法的设计 |
42 |
|
3.3.3 部分程序体介绍 |
42-44 |
|
3.4 算法的封装 |
44-46 |
|
3.5 封装算法的运行及结果 |
46-49 |
|
3.5.1 J48算法 |
46-47 |
|
3.5.2 运行结果 |
47-48 |
|
3.5.3 结果分析 |
48-49 |
|
3.6 本章小结 |
49-51 |
|
第四章 多值属性多类标数据决策树算法研究 |
51-66 |
|
4.1 问题的提出 |
51-53 |
|
4.1.1 多值属性多类标数据的描述 |
52-53 |
|
4.1.2 多值属性多类标数据的决策树问题 |
53 |
|
4.2 多值属性多类标数据决策树算法 SSC |
53-63 |
|
4.2.1 算法描述 |
53-55 |
|
4.2.2 结点停止分裂的判定方法分析 |
55-56 |
|
4.2.3 结点属性选择方法分析 |
56-61 |
|
4.2.4 SSC算法分析总结 |
61-63 |
|
4.3 基于 WEKA平台的SSC算法实现及结果分析 |
63-65 |
|
4.3.1 实验数据的准备 |
63-64 |
|
4.3.2 实验描述及结果分析 |
64-65 |
|
4.4 本章小结 |
65-66 |
|
第五章 总结与展望 |
66-68 |
|
5.1 工作总结 |
66-67 |
|
5.2 进一步研究工作 |
67-68 |
|
参考文献 |
68-72 |
|
致谢 |
72-73 |
|
攻读学位期间主要的研究成果 |
73 |
|
| 【DOI】 | LunWen.ID:2.2008.389127 |