|
| 【中文题名】 | 基于语义特征提取的PU文本分类的研究与实现 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英文题名】 | Research and Development of PU Text Classification Based on Semantic Feature Selection | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【学科专业】 | 计算机软件与理论 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文级别】 | 硕士论文 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【投稿时间】 | 2007-8-7 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【中关键词】 | PU问题,文本分类,特征提取,WordNet,, | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英关键词】 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文摘要】 | 本文研究的是基于语义特征提取的PU文本分类问题。PU分类的特点是训练集只标识了正例,而没有标识其他类别,然而常用于文本分类的特征提取方法需要类别的概率信息,因此无法应用于PU问题。大多数现有的PU分类实现都没有对特征提取做过多的研究,只是应用最简单的文档频率方法,去掉出现频率较小的词条。本文针对PU问题需要,提出了一种基于本体的语义特征提取方法,意图通过改进特征提取来提高PU分类器的性能。 本文利用WordNet实现了语义特征提取:首先找到文档的语义集合,然后去掉不含有文档语义的词条。这样既达到了特征提取的降维目的,又没有丢失文档的语义信息。实验表明,面向PU问题的语义特征提取是有效的。语义特征提取相对于文档频率方法能得到更好的分类器性能指标(评估参数F1),特别是在正例较少的情况下,大大改善了现有PU分类的效果。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文题纲】 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【DOI】 | LunWen.ID:2.2008.388735 |
| 付费论文:有参考文献 300元 | |
| 1、注册会员 2、购买本文 3、下载文章 | |
| 注:此文为收费论文,需付费购买。每页大约1000字。 |
|