| 【中文题名】 | 基于贝叶斯的中文垃圾邮件过滤系统的设计与实现 |
| 【英文题名】 | |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-8 |
| 【中关键词】 | 邮件过滤,贝叶斯分类算法,中文分词,特征选取,不良信息识别, |
| 【英关键词】 | email filtering,Bayesian classification,Chinese segmentation,feature extraction,bad information identify, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 |
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻。中国反垃圾邮件起步较晚,垃圾邮件在国内的情况十分严重,中国如今成为了世界垃圾邮件来源的第二大国,反垃圾邮件迫在眉睫。常用的反垃圾邮件技术一般包括白名单与黑名单技术、规则过滤、基于关键词匹配的内容扫描、文本分类技术等,其中文本分类技术得到了最为广泛的应用。垃圾邮件过滤中常用的文本分类方法有贝叶斯、k-近邻、决策树、boosting等,其中贝叶斯分类算法由于其设计实现简单、准确率高得到了更广泛的应用。
在将贝叶斯分类算法应用于中文邮件时,以下几个问题影响着系统的性能:由于中文与英文在书写方式、表达方式上有着明显的不同。在书写方式上,英文词与词之间用空格或是标点符号相隔,而中文字与字之间无明显的分隔符。所以首先要进行中文分词的操作,并且分词的效果能够显著的影响到分类的效果。在表达方式上,中英文也不相同,需要针对中文邮件进行特征选择操作。同时出现了大量利用中文的特点,特殊构造的含有“不良信息”的垃圾邮件,该类邮件的“不良信息”具有易理解、难识别的特点。
本文提出了一种基于贝叶斯的中文垃圾邮件过滤系统,它将贝叶斯... |
| 【论文题纲】 |
|
摘要 |
4-5 |
|
Abstract |
5-10 |
|
第一章 概述 |
10-16 |
|
1.1 课题研究背景及意义 |
10-11 |
|
1.2 垃圾邮件的危害及当前状况 |
11-13 |
|
1.2.1 垃圾邮件的定义及其危害 |
11-12 |
|
1.2.2 我国垃圾邮件的当前状况 |
12-13 |
|
1.3 垃圾邮件的过滤技术 |
13-14 |
|
1.4 论文的创新点 |
14-15 |
|
1.5 论文的内容安排 |
15-16 |
|
第二章 相关技术简介 |
16-42 |
|
2.1 贝叶斯(Bayes)文本分类技术 |
16-23 |
|
2.1.1 贝叶斯(Bayes)算法简介 |
16-17 |
|
2.1.2 贝叶斯算法在垃圾邮件中的应用 |
17-21 |
|
2.1.3 针对中文邮件的贝叶斯分类技术的研究 |
21-23 |
|
2.2 中文分词的相关概念 |
23-34 |
|
2.2.1 中文分词的概念、困难、意义及其在邮件过滤系统中的应用 |
24-26 |
|
2.2.2 基于字符串匹配的分词 |
26-31 |
|
2.2.3 基于统计的分词 |
31-32 |
|
2.2.4 基于规则和基于统计相结合 |
32 |
|
2.2.5 基于理解的分词 |
32-33 |
|
2.2.6 分词算法总体评测 |
33-34 |
|
2.3 特征选择相关概念及算法 |
34-40 |
|
2.3.1 特征选择的概念及其算法 |
35-37 |
|
2.3.2 特征选择算法评测 |
37-38 |
|
2.3.3 关键字权重 |
38-40 |
|
2.4 本章小结 |
40-42 |
|
第三章 垃圾邮件“不良信息”的识别 |
42-60 |
|
3.1 垃圾邮件的演变 |
42-45 |
|
3.2 对关键词填充垃圾邮件的研究 |
45-49 |
|
3.3 对同音伪造关键字垃圾邮件的研究 |
49-53 |
|
3.4 对变形关键字垃圾邮件的研究 |
53-59 |
|
3.4.1 关联分析方法简介 |
54-55 |
|
3.4.2 基于关联分析技术的潜在特征词挖掘方法 |
55-59 |
|
3.5 本章小结 |
59-60 |
|
第四章 基于贝叶斯的垃圾邮件过滤系统 |
60-96 |
|
4.1 邮件过滤系统的设计 |
62-63 |
|
4.2 预处理模块 |
63-67 |
|
4.2.1 邮件头预处理 |
63-66 |
|
4.2.2 正文附件内容预处理 |
66-67 |
|
4.3 数据词典的设计 |
67-79 |
|
4.3.1 链表数据字典的设计 |
67-69 |
|
4.3.2 二级哈希索引词典机制 |
69-72 |
|
4.3.3 带词缀的索引词典机制 |
72-76 |
|
4.3.4 三种词典机制的分析比较 |
76-79 |
|
4.4 分词模块 |
79-89 |
|
4.4.1 分词算法思想 |
79-80 |
|
4.4.2 改进的基于字符串的分词算法 |
80-84 |
|
4.4.3 未登录词的处理算法 |
84-89 |
|
4.5 分词结果集筛选模块 |
89-95 |
|
4.5.1 邮件协议分析 |
90-91 |
|
4.5.2 去除停用词 |
91-92 |
|
4.5.3 首次特征选择 |
92-94 |
|
4.5.4 二次特征选择 |
94-95 |
|
4.6 本章小结 |
95-96 |
|
第五章 测试 |
96-106 |
|
5.1 系统的性能测试 |
96-98 |
|
5.2 中文分词模块的性能测试 |
98-103 |
|
5.3 特征选择模块的性能测试 |
103-104 |
|
5.4 本章小节 |
104-106 |
|
第六章 总结与展望 |
106-108 |
|
6.1 总结 |
106-107 |
|
6.2 展望 |
107-108 |
|
参考文献 |
108-111 |
|
致谢 |
111-112 |
|
攻硕期间取得的研究成果 |
112-113 |
|
| 【DOI】 | LunWen.ID:2.2008.388749 |