基于自主学习的中文文本分类算法研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机应用 >> 正文
基于自主学习的中文文本分类算法研究
作者:张莹 Publish: 2007-3-13 Hits:-
【中文题名】 基于自主学习的中文文本分类算法研究
【英文题名】 Research on Chinese Text Classification Algorithm Based on Active Learning Approach
【学科专业】 计算机科学与技术
【论文级别】 硕士论文
【投稿时间】 2007-3-13
【中关键词】 自然语言理解,文本分类,特征选取,自主学习,,
【英关键词】 Nature Language Processing,Text Classification,Feature Selection and Extraction,Active Learning,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理
【论文摘要】  自动文本分类技术就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类任务的特点之一即文本经过向量空间模型(VSM)表示后特征空间维度很高,这样势必大大增加了文本训练的计算复杂度,导致训练时间过长,而且训练集中可能含有噪声样本,能够降低分类精度。针对这种情况本文在文本分类中加入自主学习算法。 自主学习(Active Learning)就是在训练过程中分类器能够自己主动选取富有信息含量的样本,除去冗余和噪声样本。一方面在保持测试精度的情况下能够大大精简训练集,有效减少训练时间;另一方面能够提高测试精度。所以针对训练集数量庞大,特征空间维度高的文本分类问题,采用自主学习的方法,可以显著提高学习效率。 本设计把基于泛化误差模型Rsm的自主学习算法应用到中文文本分类中,实现了一个基于径向基函数(Radial Basis Function Neural Network, RBFNN)的文本分类系统,重点研究是基于自主学习的文本分类算法。首先构建一个分类系统,该系统使用VSM表示文本,LTC表示特征项的权重,信息增益(Information Gai...
【论文题纲】
摘要 4-5
Abstract 5-8
第1章 绪论 8-13
1.1 课题背景 8
1.2 本课题研究的目的及意义 8-9
1.3 国内外相关技术发展现状 9-12
1.3.1 文本分类在国内外的研究现状 10
1.3.2 自主学习在国内外的研究现状 10-11
1.3.3 文本分类和自主学习面临的突出的问题 11-12
1.4 本文主要研究内容 12-13
第2章 文本分类技术 13-27
2.1 引言 13
2.2 文本分类的基本概念 13-15
2.2.1 文本分类的定义 13-14
2.2.2 文本分类任务的特点 14-15
2.3 文本分类涉及的主要技术和方法 15-25
2.3.1 文本表示技术 15-16
2.3.2 文本特征项的权重 16-17
2.3.3 文本的特征选择与特征提取 17-21
2.3.4 文本分类算法 21-25
2.4 文本分类系统结构 25-26
2.5 本章小结 26-27
第3章 自主学习算法 27-37
3.1 引言 27
3.2 自主学习的基本概念 27-28
3.2.1 自主学习的定义 27
3.2.2 自主学习的应用 27-28
3.3 不同的自主学习算法 28-30
3.3.1 基于样本的不确定性方法 28
3.3.2 询问专家委员会的方法 28-29
3.3.3 版本空间和边缘的方法 29
3.3.4 统计的方法 29-30
3.4 基于局部泛化误差模型的自主学习算法 30-36
3.4.1 泛化误差的概念 30-32
3.4.2 局部泛化误差模型-Rsm 32-35
3.4.3 样本选择的标准 35-36
3.5 本章小结 36-37
第4章 基于自主学习的文本分类算法 37-46
4.1 引言 37
4.2 文本分类算法的实现 37-45
4.2.1 文本分类的预处理 37-38
4.2.2 基于向量空间模型的文本表示方法 38-39
4.2.3 基于信息增益的特征选取算法 39
4.2.4 基于LTC的特征权重表示算法 39-41
4.2.5 构建类模型 41-43
4.2.6 基于Rsm算法的RBFNN的分类器 43-45
4.3 本章小结 45-46
第5章 文本分类系统实现及实验结果 46-52
5.1 引言 46
5.2 文本分类的系统结构 46-47
5.3 文本分类语料 47
5.4 实验环境 47-48
5.5 实验方法 48
5.6 实验结果 48-51
5.7 本章小结 51-52
结论 52-53
参考文献 53-58
攻读学位期间发表的学术论文 58-60
致谢 60
【DOI】 LunWen.ID:2.2008.366335
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:自然语言理解 论文 文本分类 特征选取 自主学习
计算机应用最新论文
计算机应用热门论文