| 【论文摘要】 |
自动文本分类技术就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类任务的特点之一即文本经过向量空间模型(VSM)表示后特征空间维度很高,这样势必大大增加了文本训练的计算复杂度,导致训练时间过长,而且训练集中可能含有噪声样本,能够降低分类精度。针对这种情况本文在文本分类中加入自主学习算法。
自主学习(Active Learning)就是在训练过程中分类器能够自己主动选取富有信息含量的样本,除去冗余和噪声样本。一方面在保持测试精度的情况下能够大大精简训练集,有效减少训练时间;另一方面能够提高测试精度。所以针对训练集数量庞大,特征空间维度高的文本分类问题,采用自主学习的方法,可以显著提高学习效率。
本设计把基于泛化误差模型Rsm的自主学习算法应用到中文文本分类中,实现了一个基于径向基函数(Radial Basis Function Neural Network, RBFNN)的文本分类系统,重点研究是基于自主学习的文本分类算法。首先构建一个分类系统,该系统使用VSM表示文本,LTC表示特征项的权重,信息增益(Information Gai... |