| 【论文摘要】 |
伴随着Internet的普及,电子邮件以其快捷、方便、低成本的特点已成为互联网上最重要、最普及的应用。但是随之而来的垃圾邮件也越来越泛滥,侵占了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作,生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前亟待解决的问题。
目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外还有一种就是从电子邮件的文本内容入手,使用文本分类算法,对邮件进行分类。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k—近邻、决策树等。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点,在文本分类中得到了广泛的应用。由于在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来据大的损失,因此在邮件过滤中就要采取适当的措施以减小损失。在目前的各种反垃圾邮件技术中,一种基于概率统计的贝叶斯过滤技术以其较好的智能性、适应性和有效性而越来越多的被深入研究和广泛采用。
本文从技术角度出发,在全面系统学习和总结国内外反垃圾邮件领域的最新成果的基础上,深... |