|
| 【中文题名】 | 中文文本自动分类系统的研究与实现 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英文题名】 | Research and Implementation of Chinese Text Categorization | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【学科专业】 | 计算机软件与理论 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文级别】 | 硕士论文 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【投稿时间】 | 2007-8-6 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【中关键词】 | 文本分类,中文分词,向量空间模型,特征选择,权重, | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英关键词】 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机软件>程序设计、软件工程>软件工程 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文摘要】 | 本文的第一章介绍了自动文本分类技术的产生背景及其意义,介绍了自动文本分类的问题描述、评价方法以及技术的种类,并在最后部分介绍了国外该技术的研究现状。 第二章介绍了中文文本自动分类的技术基础。 第三章介绍了文本分类的关键技术,对文本分类中的文本的表示、 特征项的提取、训练算法和分类算法以及阈值的确定都作了较为详细的阐述。 第四章是本论文的重点,在本章中,集中介绍了本人所作的工作。首先对于分词歧义处理的情况进行了分析,并提出了基于上下文的双向扫描分词算法。然后,对于目前通用的tfc加权法的不足之处进行了分析,并引进χ2统计量参与项的权值的计算。除此之外,在文本分类过程中,目前传统的做法是所有类别都具有同一个特征项集,但这样做使得有些类别的特征概括不全或者所选出的特征并不具备区分类别的能力。为此,本文提出了这样一种思想,即对于每一个文本类别,都单独赋予一个特征项集,并且对于同一个词项在不同类别所对应的特征项集中的权重都不尽相同。并在随后将项的类内文档频率的概念引入项的权重计算当中,进一步提高了特征项对于文本分类的有效性。关于文本分类算法,提出了项打分分类算法。 最后... | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文题纲】 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【DOI】 | LunWen.ID:2.2008.359554 |
| 付费论文:有参考文献 300元 | |
| 1、注册会员 2、购买本文 3、下载文章 | |
| 注:此文为收费论文,需付费购买。每页大约1000字。 |
|