| 【中文题名】 | 基于决策树的邮件分类技术研究 |
| 【英文题名】 | Research on Mail Classification Technique Based on Decision Tree |
| 【学科专业】 | 计算数学 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-19 |
| 【中关键词】 | 邮件分类,决策树,多值偏向,模型,, |
| 【英关键词】 | Mail Classification,Decision Tree,variety bias,Model, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 |
随着Internet应用的迅猛发展,电子邮件得到了越来越广泛的应用。电子邮件一方面给人们提供经济、方便和快捷的服务,另一方面也给一些商人和不法分子提供了利用它进行违法行为和宣传的机会。2006年第一次中国反垃圾邮件状况调查报告显示,2005年11月到2006年2月,中国互联网用户收到的垃圾邮件比例达到63.97%,垃圾邮件每年给国民经济造成63亿损失。
对电子邮件进行分类过滤是有效对付垃圾邮件的主要手段。目前的过滤技术手段主要分为二种,一种是针对邮件地址的过滤,另一种是针对邮件内容的过滤。这两种技术都缺乏智能性和自适应性,因此研究能根据邮件的不断变化来学习识别垃圾邮件的特征,自动建立和升级新的垃圾邮件特征代码和过滤规则条件,并智能地用于新邮件的分类过滤系统具有较大的现实意义。
本文针对邮件分类技术进行了研究,主要工作如下:
1.分析了垃圾邮件可能出现的类型,深入研究了当前邮件分类技术的国内外研究现状,特别是基于决策树的邮件分类技术。
2.提出了一种改进的基于测试属性对分类贡献的属性选择标准。该方法在建立每个内结点进行计算属性对分类的贡献程度时,选择的数据集的范围是其父... |
| 【论文题纲】 |
|
摘要 |
3-5 |
|
ABSTRACT |
5-9 |
|
第一章 综述 |
9-14 |
|
1.1 研究背景 |
9-11 |
|
1.2 垃圾邮件在中国的走势与特点 |
11-12 |
|
1.3 本文研究内容 |
12-14 |
|
第二章 邮件 |
14-30 |
|
2.1 邮件的工作原理 |
14-19 |
|
2.2 垃圾邮件 |
19-24 |
|
2.3 垃圾邮件过滤技术国内外研究现状 |
24-30 |
|
第三章 基于决策树的邮件分类技术 |
30-55 |
|
3.1 构造决策树测试属性的选择标准 |
31-48 |
|
3.2 决策树学习算法介绍 |
48-50 |
|
3.3 决策树评估与优化 |
50-53 |
|
3.4 决策树规则的提取 |
53-55 |
|
第四章 模型实现与结果 |
55-80 |
|
4.1 基于决策树的邮件分类模型 |
55-58 |
|
4.2 邮件过滤规则的形成 |
58-70 |
|
4.3 邮件接收处理 |
70-76 |
|
4.4 邮件分类 |
76 |
|
4.5 模型的自学习和自适应 |
76-77 |
|
4.6 实验结果 |
77-80 |
|
第五章 结束语 |
80-81 |
|
参考文献 |
81-84 |
|
研究生期间发表的论文 |
84-85 |
|
后记 |
85-86 |
|
| 【DOI】 | LunWen.ID:2.2008.376428 |