| 【中文题名】 | 交叉覆盖算法下文本分类的研究 |
| 【英文题名】 | Text Classification Study Based on Cross Cover Algorithm |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-11-14 |
| 【中关键词】 | 特征降维,文本分类,覆盖算法,,, |
| 【英关键词】 | Feature Dimension,Version Classification,Cross Cover Algorithm, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理 |
| 【论文摘要】 |
文本自动分类,是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术,近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现,迫切需要对文本进行有效地分类,以提高查找、阅读速度的结果。目前尽管已有许多技术和算法用于文本的自动分类,但是,对这些技术和算法本身效力的挖掘还远远不够,仍留有很大的改进空间。另外,还有新的分类方法尚待深入研究,特别是对于中文文本的自动分类,之前相关的研究工作相对较少,有名气的中文文本分类器更少。
文本分类器对于学习算法和分类的结果都是至关重要的一步。在学习算法和分类系统能够处理文本之前,文本必须转换成一种适当的表示形式。这种表示形式要在一定程度上能够捕获文本本身的语义内容。依据前面的要求,可以把中文文本分类技术过程描述为:文本数据集的搜集,中文文本的分词,高维的原始特征空间的降维计算,分类器的选择,分类结果的评价等。
本文所做工作如下:
1、介绍了文本分类相关概念,对现有文本分类方法进行了介绍;
2、为了从分词结果中获取对分类有用的信息,本文中使用不同的特征降维方法:互信息方法、相关系数法、文档频率法,及期... |
| 【论文题纲】 |
|
摘要 |
3-5 |
|
Abstract |
5-7 |
|
目录 |
7-9 |
|
第一章 绪论 |
9-15 |
|
1.1 研究的目的、意义及研究背景 |
9-10 |
|
1.2 文本分类的定义 |
10-11 |
|
1.3 文本分类的步骤 |
11-12 |
|
1.4 国内外对文本分类研究 |
12-13 |
|
1.5 本文的工作 |
13-15 |
|
第二章 中文文本预处理 |
15-26 |
|
2.1 汉语的特征 |
15-16 |
|
2.2 分词概述 |
16-18 |
|
2.3 文本分类中分词方法 |
18-20 |
|
2.4 特征选择 |
20-25 |
|
2.5 本章小结 |
25-26 |
|
第三章 常见文本分类算法介绍 |
26-40 |
|
3.1 中文文本分类算法概述 |
26-27 |
|
3.2 常用分类算法介绍 |
27-39 |
|
3.2.1 Rocchio算法 |
27-28 |
|
3.2.2 Bayes法 |
28-30 |
|
3.2.3 k近邻法(kNN) |
30 |
|
3.2.4 决策树法 |
30-31 |
|
3.2.5 支持向量机(SVM)方法 |
31-32 |
|
3.2.6 向量空间模型(VSM)法 |
32-33 |
|
3.2.7 交叉覆盖法 |
33-39 |
|
3.3 本章小结 |
39-40 |
|
第四章 基于覆盖算法在文本分类中的应用 |
40-52 |
|
4.1 覆盖算法在文本分类中的流程 |
40-41 |
|
4.2 预处理 |
41-42 |
|
4.2.1 分词 |
41-42 |
|
4.2.2 进行特征提取 |
42 |
|
4.3 交叉覆盖算法 |
42-44 |
|
4.4 实验内容及结果 |
44-47 |
|
4.5 实验结果的比较 |
47-50 |
|
4.6 本章小节 |
50-52 |
|
第五章 总结和展望 |
52-54 |
|
5.1 总结 |
52 |
|
5.2 发展与展望 |
52-54 |
|
参考文献 |
54-57 |
|
图表 |
57-58 |
|
致谢 |
58-59 |
|
个人简历、在学期间的研究成果 |
59 |
|
| 【DOI】 | LunWen.ID:2.2008.370620 |