基于贝叶斯的中文垃圾邮件过滤系统的设计与实现
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 自动化 >> 自动化基础 >> 正文
基于贝叶斯的中文垃圾邮件过滤系统的设计与实现
作者:黄志刚 Publish: 2007-8-8 Hits:-
【中文题名】 基于贝叶斯的中文垃圾邮件过滤系统的设计与实现
【英文题名】 
【学科专业】 计算机应用技术
【论文级别】 硕士论文
【投稿时间】 2007-8-8
【中关键词】 邮件过滤,贝叶斯分类算法,中文分词,特征选取,不良信息识别,
【英关键词】 email filtering,Bayesian classification,Chinese segmentation,feature extraction,bad information identify,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题
【论文摘要】  电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻。中国反垃圾邮件起步较晚,垃圾邮件在国内的情况十分严重,中国如今成为了世界垃圾邮件来源的第二大国,反垃圾邮件迫在眉睫。常用的反垃圾邮件技术一般包括白名单与黑名单技术、规则过滤、基于关键词匹配的内容扫描、文本分类技术等,其中文本分类技术得到了最为广泛的应用。垃圾邮件过滤中常用的文本分类方法有贝叶斯、k-近邻、决策树、boosting等,其中贝叶斯分类算法由于其设计实现简单、准确率高得到了更广泛的应用。 在将贝叶斯分类算法应用于中文邮件时,以下几个问题影响着系统的性能:由于中文与英文在书写方式、表达方式上有着明显的不同。在书写方式上,英文词与词之间用空格或是标点符号相隔,而中文字与字之间无明显的分隔符。所以首先要进行中文分词的操作,并且分词的效果能够显著的影响到分类的效果。在表达方式上,中英文也不相同,需要针对中文邮件进行特征选择操作。同时出现了大量利用中文的特点,特殊构造的含有“不良信息”的垃圾邮件,该类邮件的“不良信息”具有易理解、难识别的特点。 本文提出了一种基于贝叶斯的中文垃圾邮件过滤系统,它将贝叶斯...
【论文题纲】
摘要 4-5
Abstract 5-10
第一章 概述 10-16
1.1 课题研究背景及意义 10-11
1.2 垃圾邮件的危害及当前状况 11-13
1.2.1 垃圾邮件的定义及其危害 11-12
1.2.2 我国垃圾邮件的当前状况 12-13
1.3 垃圾邮件的过滤技术 13-14
1.4 论文的创新点 14-15
1.5 论文的内容安排 15-16
第二章 相关技术简介 16-42
2.1 贝叶斯(Bayes)文本分类技术 16-23
2.1.1 贝叶斯(Bayes)算法简介 16-17
2.1.2 贝叶斯算法在垃圾邮件中的应用 17-21
2.1.3 针对中文邮件的贝叶斯分类技术的研究 21-23
2.2 中文分词的相关概念 23-34
2.2.1 中文分词的概念、困难、意义及其在邮件过滤系统中的应用 24-26
2.2.2 基于字符串匹配的分词 26-31
2.2.3 基于统计的分词 31-32
2.2.4 基于规则和基于统计相结合 32
2.2.5 基于理解的分词 32-33
2.2.6 分词算法总体评测 33-34
2.3 特征选择相关概念及算法 34-40
2.3.1 特征选择的概念及其算法 35-37
2.3.2 特征选择算法评测 37-38
2.3.3 关键字权重 38-40
2.4 本章小结 40-42
第三章 垃圾邮件“不良信息”的识别 42-60
3.1 垃圾邮件的演变 42-45
3.2 对关键词填充垃圾邮件的研究 45-49
3.3 对同音伪造关键字垃圾邮件的研究 49-53
3.4 对变形关键字垃圾邮件的研究 53-59
3.4.1 关联分析方法简介 54-55
3.4.2 基于关联分析技术的潜在特征词挖掘方法 55-59
3.5 本章小结 59-60
第四章 基于贝叶斯的垃圾邮件过滤系统 60-96
4.1 邮件过滤系统的设计 62-63
4.2 预处理模块 63-67
4.2.1 邮件头预处理 63-66
4.2.2 正文附件内容预处理 66-67
4.3 数据词典的设计 67-79
4.3.1 链表数据字典的设计 67-69
4.3.2 二级哈希索引词典机制 69-72
4.3.3 带词缀的索引词典机制 72-76
4.3.4 三种词典机制的分析比较 76-79
4.4 分词模块 79-89
4.4.1 分词算法思想 79-80
4.4.2 改进的基于字符串的分词算法 80-84
4.4.3 未登录词的处理算法 84-89
4.5 分词结果集筛选模块 89-95
4.5.1 邮件协议分析 90-91
4.5.2 去除停用词 91-92
4.5.3 首次特征选择 92-94
4.5.4 二次特征选择 94-95
4.6 本章小结 95-96
第五章 测试 96-106
5.1 系统的性能测试 96-98
5.2 中文分词模块的性能测试 98-103
5.3 特征选择模块的性能测试 103-104
5.4 本章小节 104-106
第六章 总结与展望 106-108
6.1 总结 106-107
6.2 展望 107-108
参考文献 108-111
致谢 111-112
攻硕期间取得的研究成果 112-113
【DOI】 LunWen.ID:2.2008.388749
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:邮件过滤 论文 贝叶斯分类算法 中文分词 特征选取 不良信息识别
自动化基础最新论文
自动化基础热门论文