| 【中文题名】 | 基于机器学习的文本分类算法研究 |
| 【英文题名】 | Research on Text Classification Algorithms Based on Machine Learning |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-9-14 |
| 【中关键词】 | 文本分类,朴素贝叶斯,支持向量机,决策树,最近邻,ROC曲线下面积 |
| 【英关键词】 | text classification,naive bayes,SVM,decision tree,nearest neighbor,AUC, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理 |
| 【论文摘要】 |
随着计算机技术、数据库技术、网络技术的飞速发展和Internet的日益普及,在现实生活中,每一个领域都不断产生海量数据和信息,特别是海量的文本数据。如何自动将这些文本数据进行分类整理,挖掘出有效信息,给人们有效利用,成为一个日趋重要的问题。因此,文本数据挖掘作为一门新兴学科,逐渐成为了一门引人注目、发展迅速的领域。
文本分类是文本数据挖掘中的一个基本技术,其作用是根据文本的各项特征判断其所属的预先设计的类别。它在自然语言处理与理解、信息组织与管理、内容信息过滤等领域具有非常广泛的应用。早期的文本分类采用的是基于知识工程和专家系统的方法,可是这样的方法非常复杂和缺乏灵活性。随着机器学习的兴起和发展,很多机器学习的分类器模型被引入的文本分类领域中,从不同的方面取得了不错的效果。
目前,各种文本分类算法都在一定的领域里有好的效果,但都不能成为通用方法,因此,如何对现有的文本分类算法进行评估也是一个非常重要的问题。分类的精度是已经被广泛用于评估文本分类算法性能的主要度量标准之一,但是,当要处理的类分布不均匀或者分类出错的代价不相同时,精度的局限性就显示出来了。在这种情况下,AUC被提出作为一... |
| 【论文题纲】 |
|
摘要 |
4-6 |
|
Abstract |
6-9 |
|
目录 |
9-11 |
|
第一章 绪论 |
11-16 |
|
1.1 课题研究背景及意义 |
11-12 |
|
1.2 国内外研究现状和发展 |
12-14 |
|
1.2.1 文本分类研究进展 |
12-14 |
|
1.2.2 分类评估标准 |
14 |
|
1.3 本文的主要工作和组织结构 |
14-16 |
|
1.3.1 本文的主要工作 |
14-15 |
|
1.3.2 本文的组织结构 |
15-16 |
|
第二章 文本分类 |
16-25 |
|
2.1 文本分类算法概述 |
16-17 |
|
2.2 文本表述和特征选择 |
17-18 |
|
2.2.1 文本表述 |
17-18 |
|
2.2.2 特征选择 |
18 |
|
2.3 主流文本分类算法 |
18-25 |
|
2.3.1 支持向量机(Support Vector Machine,SVM) |
18-20 |
|
2.3.2 k最近邻算法(k Nearest Neighbor,kNN) |
20-21 |
|
2.3.3 决策树算法 |
21-23 |
|
2.3.4 朴素贝叶斯算法(Naive Bayes,NB) |
23-25 |
|
第三章 文本分类的评估标准 |
25-33 |
|
3.1 常用评估标准 |
25-26 |
|
3.2 受试者工作特征曲线(Receive Operating Characteristic Curve,ROC曲线) |
26-27 |
|
3.3 ROC曲线下的区域(The Area Under the ROC Curve,AUC) |
27-30 |
|
3.4 预测精度与AUC |
30-33 |
|
第四章 文本分类算法比较实验 |
33-49 |
|
4.1 实验设计 |
33-34 |
|
4.1.1 设计动机 |
33 |
|
4.1.2 算法选择 |
33-34 |
|
4.2 实验配置 |
34-38 |
|
4.2.1 实验环境 |
34-35 |
|
4.2.2 数据集 |
35-38 |
|
4.3 实验数据及分析 |
38-47 |
|
4.3.1 精度分析 |
38-41 |
|
4.3.2 AUC分析 |
41-45 |
|
4.3.3 大容量数据集下的比较 |
45-47 |
|
4.4 结论 |
47-49 |
|
第五章 总结与展望 |
49-51 |
|
5.1 工作总结 |
49 |
|
5.2 工作展望 |
49-51 |
|
参考文献 |
51-54 |
|
致谢 |
54-55 |
|
攻读硕士学位期间发表的学术论文 |
55 |
|
| 【DOI】 | LunWen.ID:2.2008.388935 |