| 【中文题名】 | 基于支持向量机的文本分类的研究 |
| 【英文题名】 | Text Categorization Research Based on Support Vector Machine |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-4-27 |
| 【中关键词】 | 支持向量机,文本分类,核函数,文本特征,参数选择, |
| 【英关键词】 | SVM,text categorization,kernel functions,text features,parameters choosing, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
统计学习理论作为一种专门的小样本学习理论,在解决小样本、非线性及高维模式识别等问题中表现出了许多特有的优势。同时,在其理论基础上发展出了很多实际的学习方法。支持向量机(SVM)就是最具代表性的一个,它专门针对有限样本情况,得到现有信息下的最优解,很大程度上解决了模型选择、过学习、非线性、维数灾难等问题。核函数方法正是在支持向量机的研究中提出并逐步得到发展的一种构造非线性变换的方法。由于核函数的好坏直接影响着支持向量机的性能,因此有关核函数的研究也就成为支持向量机研究中需要解决的核心问题之一。
本文的研究工作主要包括以下几个方面:
(1)回顾了统计学习理论研究的基本问题及主要内容,介绍了支持向量机的发展和国内外研究现状,对目前存在的问题进行了总结。
(2)结合大量的实验,揭示出文本的各种特征对最终分类性能的影响程度,并分析比较了不同的核函数在文本分类中的分类性能,以及各种核函数参数选择和文本特征的联系。为构造适合文本分类的新的核函数、文本分类中的核参数的选择和改进现有的核函数提供了很好的指导。
(3)在分析现有参数调整方法的基础之上,结合文本特征,提出了一种改进的参数调... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
ABSTRACT |
6-9 |
|
1 绪论 |
9-13 |
|
1.1 研究背景 |
9 |
|
1.2 国内外研究现状 |
9-10 |
|
1.2.1 国外研究现状 |
10 |
|
1.2.2 国内研究现状 |
10 |
|
1.3 课题研究的意义及主要内容 |
10-11 |
|
1.3.1 课题研究的意义 |
10-11 |
|
1.3.2 课题研究的主要内容 |
11 |
|
1.4 课题研究的创新点 |
11-12 |
|
1.5 论文的组织 |
12-13 |
|
2 文本分类综述 |
13-19 |
|
2.1 文本特征的表示 |
13-14 |
|
2.2 特征选择 |
14-17 |
|
2.2.1 文档频率 |
15 |
|
2.2.2 互信息 |
15-16 |
|
2.2.3 信息增益 |
16 |
|
2.2.4 期望交叉熵 |
16 |
|
2.2.5 χ~2 统计 |
16-17 |
|
2.3 性能指标 |
17-19 |
|
2.3.1 查准率、查全率和F1 值 |
17 |
|
2.3.2 微平均和宏平均 |
17-19 |
|
3 支持向量机理论 |
19-29 |
|
3.1 统计学习理论 |
19-23 |
|
3.1.1 学习过程的一致性 |
19-20 |
|
3.1.2 VC 维和推广性的界 |
20-22 |
|
3.1.3 结构风险最小化 |
22-23 |
|
3.2 支持向量机 |
23-27 |
|
3.2.1 最优分类面和广义最优分类面 |
23-25 |
|
3.2.2 支持向量机 |
25-26 |
|
3.2.3 核函数 |
26-27 |
|
3.3 多分类支持向量机 |
27-29 |
|
3.3.1 1-a-r 方法 |
28 |
|
3.3.2 1-a-1 方法 |
28-29 |
|
4 基于文本特征的核函数 |
29-46 |
|
4.1 核函数的性质 |
29-30 |
|
4.2 核函数的一般构造方法 |
30-33 |
|
4.2.1 构造核函数的条件 |
30-31 |
|
4.2.2 从特征中构造核函数 |
31-32 |
|
4.2.3 从核函数中构造核函数 |
32-33 |
|
4.3 改进的基于文本特征的核函数 |
33-46 |
|
4.3.1 核函数对文本分类的影响 |
34-41 |
|
4.3.2 改进核在文本分类中的应用 |
41-46 |
|
5 核函数参数选择的优化 |
46-55 |
|
5.1 核参数选择的一般方法 |
46-48 |
|
5.1.1 经验法 |
47 |
|
5.1.2 实验法 |
47-48 |
|
5.1.3 理论法 |
48 |
|
5.2 核函数参数选择原理 |
48-50 |
|
5.3 简化的参数优化选择方法 |
50-51 |
|
5.4 在文本分类中的应用 |
51-55 |
|
5.4.1 数据集 |
51-52 |
|
5.4.2 评价标准 |
52 |
|
5.4.3 实验结果及分析 |
52-55 |
|
6. 结论与展望 |
55-57 |
|
6.1 全文总结 |
55 |
|
6.2 存在的问题和进一步的研究工作 |
55-57 |
|
参考文献 |
57-61 |
|
| 【DOI】 | LunWen.ID:2.2008.388433 |