| 【中文题名】 | 基于多类支持向量机的文本分类研究 |
| 【英文题名】 | Study on Text Classification Based on Multi-class Support Vector Machines |
| 【学科专业】 | 计算机系统结构 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-25 |
| 【中关键词】 | 支持向量机,特征选择,文本挖掘,二叉树多分类SVM,文本分类, |
| 【英关键词】 | Support Vector Machines,Feature Selection,Text Mining,Binary Tree Multi-class SVM,Text Classifier, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
随着信息时代的高速发展,如何对已有大量自然语言文本进行挖掘,特别是对其按照设定的语义进行正确的归类,已经成为组织大量文本信息的一个关键问题,这就是文本挖掘中很重要的一类任务-文本分类。支持向量机是由Vapnik等人提出的一种学习技术,是借助于最优化方法解决机器学习问题的新工具。它集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛地研究并应用于文本分类、模式识别等领域。但支持向量机最初是针对二类分类提出的,如何将其扩展到多类并应用于文本分类是本文研究的重要内容。
本文在对文本挖掘问题进行阐述的基础上,对支持向量机多类分类算法进行了深入的研究,在考察现有多分类SVM算法后,提出了一种基于二叉树基础的多类SVM改进算法,并把改进后的多类SVM用于文本挖掘中的文本分类。己经进行的主要研究工作如下:
①研究了文本挖掘的常见技术,并以文本分类为主要任务,阐述了常用的文本分类算法。接下来对支持向量机原理进行了阐述,并对其应用于分类挖掘时的问题及解决方法做了简要分析。
②支持向量机多类分类算法的研究,... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
ABSTRACT |
4-9 |
|
1 绪论 |
9-17 |
|
1.1 引言 |
9-10 |
|
1.2 选题背景及课题意义 |
10-12 |
|
1.2.1 选题背景 |
10 |
|
1.2.2 课题意义 |
10-12 |
|
1.3 国内外研究现状 |
12-14 |
|
1.3.1 支持向量机研究进展 |
12-13 |
|
1.3.2 文本挖掘研究进展 |
13-14 |
|
1.4 论文研究思路及内容 |
14-17 |
|
2 文本挖掘技术 |
17-30 |
|
2.1 数据挖掘 |
17-19 |
|
2.1.1 数据挖掘介绍 |
17 |
|
2.1.2 数据挖掘任务及方法 |
17-19 |
|
2.2 文本挖掘概述 |
19-21 |
|
2.2.1 文本挖掘概念 |
19-20 |
|
2.2.2 文本挖掘过程 |
20-21 |
|
2.3 文本预处理 |
21-26 |
|
2.3.1 特征抽取 |
21-22 |
|
2.3.2 特征选择 |
22-24 |
|
2.3.3 文本向量表示 |
24-26 |
|
2.4 文本挖掘关键技术 |
26-27 |
|
2.4.1 文本分类 |
26-27 |
|
2.4.2 文本聚类 |
27 |
|
2.4.3 文本关联分析 |
27 |
|
2.5 文本分类 |
27-28 |
|
2.5.1 文本分类描述 |
27-28 |
|
2.5.2 文本分类任务 |
28 |
|
2.6 本章小结 |
28-30 |
|
3 支持向量机数据挖掘方法 |
30-42 |
|
3.1 分类数据挖掘 |
30 |
|
3.2 支持向量机 |
30-39 |
|
3.2.1 统计学习理论 |
30-32 |
|
3.2.2 支持向量机概述 |
32-34 |
|
3.2.3 支持向量机原理 |
34-38 |
|
3.2.4 模型选择 |
38 |
|
3.2.5 优缺点 |
38-39 |
|
3.3 支持向量机应用于分类挖掘 |
39-40 |
|
3.3.1 支持向量机用于分类挖掘 |
39 |
|
3.3.2 挖掘应用中的主要问题及解决方法 |
39-40 |
|
3.4 本章小结 |
40-42 |
|
4 一种改进的多分类支持向量机 |
42-58 |
|
4.1 现有多分类支持向量机 |
42-49 |
|
4.1.1 多类支持向量机组合策略 |
42-47 |
|
4.1.2 常用多类SVM 分析比较 |
47-49 |
|
4.2 本文中要解决的问题 |
49-51 |
|
4.2.1 基于二叉树的多类支持向量机原理及算法描述 |
49-50 |
|
4.2.2 存在的问题 |
50-51 |
|
4.3 二叉树多类支持向量机改进 |
51-57 |
|
4.3.1 几种改进策略 |
51-54 |
|
4.3.2 本文提出的基于二叉树改进原理 |
54-56 |
|
4.3.3 算法设计及分析 |
56-57 |
|
4.4 本章小结 |
57-58 |
|
5 多类支持向量机文本分类器设计及实现 |
58-76 |
|
5.1 文本分类过程及常见方法 |
58-62 |
|
5.1.1 KNN |
59 |
|
5.1.2 NativeBayes |
59-61 |
|
5.1.3 Rocchio |
61 |
|
5.1.4 SVM |
61-62 |
|
5.2 基于多类支持向量机的文本分类器设计 |
62-66 |
|
5.2.1 传统SVM 文本分类器 |
62 |
|
5.2.2 两类问题改进思想简要介绍 |
62-64 |
|
5.2.3 多分类问题改进思想 |
64-65 |
|
5.2.4 分类器评价 |
65-66 |
|
5.3 实验环境 |
66-70 |
|
5.3.1 技术及实验平台实现 |
67-68 |
|
5.3.2 系统核心libsvm 实现简介 |
68-70 |
|
5.4 实验及结果分析 |
70-73 |
|
5.4.1 多分类SVM 数值实验及结果分析 |
70-71 |
|
5.4.2 多类SVM 文本分类实验及结果分析 |
71-73 |
|
5.5 实时环境中的应用展望及问题 |
73-74 |
|
5.6 本章小结 |
74-76 |
|
6 结束语及展望 |
76-78 |
|
致谢 |
78-80 |
|
参考文献 |
80-84 |
|
附录 |
84 |
|
A. 作者在攻读硕士学位期间发表的论文目录 |
84 |
|
B. 作者在攻读硕士学位期间参加的科研项目 |
84 |
|
| 【DOI】 | LunWen.ID:2.2008.389089 |