| 【中文题名】 | 基于改进向量空间模型的邮件分类 |
| 【英文题名】 | |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-16 |
| 【中关键词】 | 自然语言处理,邮件分类,向量空间模型,粘合性衡量,, |
| 【英关键词】 | natural language processing,email classification,vector space model,glue measure, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 |
电子邮件在当今已经成为人们联系交流不可缺少的通信工具,但用户每天都需要花费大量的工作时间对众多邮件进行整理。因此,研究邮件的自动归类具有重要意义,目前邮件自动归类有基于统计和基于规则两类。本文主要研究的是基于统计的分类。
本文对电子邮件分类系统中所有必要的构成阶段进行了研究,包括训练阶段和分类阶段,并给出了在两个阶段中经常采用的技术。这些技术主要有邮件表示、特征选择与提取、分类技术等。在这些技术中本文主要讨论了邮件的表示方法,着重分析了基于向量空间模型的表示形式。
基于统计的邮件分类一般采用向量空间模型来表示邮件,该模型将邮件表示成为向量形式,将对邮件内容的处理简化成了对向量空间中的向量进行运算,从而使模式识别和其他领域的计算方法能够在自然语言文本处理中运用,得以实现对邮件的可操作性和可计算性。但是该模型并未考虑到词所在邮件的结构特征,影响了分类的精度。
针对向量空间模型存在的缺点,本文的系统借助粘合性衡量方法提取n-gram的思想,对向量空间模型进行改进,提出了计算词权重的一种新方法。这种方法以段落为邮件的最小分块,将邮件内容视为一个n-gram,段落视为n-gram中的单... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
ABSTRACT |
4-8 |
|
第一章 绪论 |
8-14 |
|
1.1 研究背景 |
8 |
|
1.2 电子邮件分类概况 |
8-12 |
|
1.2.1 概念 |
8-9 |
|
1.2.2 研究现状 |
9-12 |
|
1.3 论文研究的主要内容 |
12-13 |
|
1.4 论文结构 |
13-14 |
|
第二章 邮件分类技术研究 |
14-28 |
|
2.1 邮件的表示 |
14-17 |
|
2.1.1 布尔模型 |
15 |
|
2.1.2 向量空间模型 |
15-17 |
|
2.2 特征选择与提取 |
17-19 |
|
2.2.1 文档频率法 |
18 |
|
2.2.2 互信息 |
18-19 |
|
2.2.3 TF-IDF方法 |
19 |
|
2.3 分类技术 |
19-23 |
|
2.3.1 朴素贝叶斯分类法 |
20-21 |
|
2.3.2 最大熵模型 |
21-23 |
|
2.3.3 Rocchio算法 |
23 |
|
2.4 分类的性能评价 |
23-26 |
|
2.4.1 性能测试 |
24 |
|
2.4.2 性能评价 |
24-26 |
|
2.5 小结 |
26-28 |
|
第三章 改进的向量空间模型算法 |
28-39 |
|
3.1 邮件的格式 |
28-30 |
|
3.2 基于内容粘合性的邮件分类 |
30-36 |
|
3.2.1 想法来源 |
30-31 |
|
3.2.2 粘合性衡量方法 |
31-32 |
|
3.2.3 改进算法 |
32-36 |
|
3.3 基于词同现和文本结构的邮件分类的探讨 |
36-38 |
|
3.4 小结 |
38-39 |
|
第四章 系统设计与实现 |
39-52 |
|
4.1 系统简介 |
39-40 |
|
4.2 系统结构组成 |
40-46 |
|
4.2.1 预处理 |
42-43 |
|
4.2.2 特征选择 |
43-45 |
|
4.2.3 分类器构造和分类 |
45-46 |
|
4.3 系统实验 |
46-50 |
|
4.3.1 实验数据 |
46 |
|
4.3.2 试验估计与结果分析 |
46-50 |
|
4.4 小结 |
50-52 |
|
第五章 总结与展望 |
52-54 |
|
参考文献 |
54-58 |
|
致谢 |
58-59 |
|
攻读学位期间主要的研究成果 |
59 |
|
| 【DOI】 | LunWen.ID:2.2008.376433 |