中文文本自动分类系统的研究与实现
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机软件 >> 正文
中文文本自动分类系统的研究与实现
作者:张桂林 Publish: 2007-8-6 Hits:-
【中文题名】 中文文本自动分类系统的研究与实现
【英文题名】 Research and Implementation of Chinese Text Categorization
【学科专业】 计算机软件与理论
【论文级别】 硕士论文
【投稿时间】 2007-8-6
【中关键词】 文本分类,中文分词,向量空间模型,特征选择,权重,
【英关键词】 
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机软件>程序设计、软件工程>软件工程
【论文摘要】  本文的第一章介绍了自动文本分类技术的产生背景及其意义,介绍了自动文本分类的问题描述、评价方法以及技术的种类,并在最后部分介绍了国外该技术的研究现状。 第二章介绍了中文文本自动分类的技术基础。 第三章介绍了文本分类的关键技术,对文本分类中的文本的表示、 特征项的提取、训练算法和分类算法以及阈值的确定都作了较为详细的阐述。 第四章是本论文的重点,在本章中,集中介绍了本人所作的工作。首先对于分词歧义处理的情况进行了分析,并提出了基于上下文的双向扫描分词算法。然后,对于目前通用的tfc加权法的不足之处进行了分析,并引进χ2统计量参与项的权值的计算。除此之外,在文本分类过程中,目前传统的做法是所有类别都具有同一个特征项集,但这样做使得有些类别的特征概括不全或者所选出的特征并不具备区分类别的能力。为此,本文提出了这样一种思想,即对于每一个文本类别,都单独赋予一个特征项集,并且对于同一个词项在不同类别所对应的特征项集中的权重都不尽相同。并在随后将项的类内文档频率的概念引入项的权重计算当中,进一步提高了特征项对于文本分类的有效性。关于文本分类算法,提出了项打分分类算法。 最后...
【论文题纲】
提要 4-7
第一章 绪论 7-14
1.1 课题背景及意义 7
1.2 文本分类系统的研究现状 7-10
1.3 文本分类系统的问题描述 10-12
1.3.1 系统任务 10-11
1.3.2 评价方法 11-12
1.4 文本自动分类技术的应用价值 12-14
第二章 中文文本自动分类的技术基础 14-29
2.1 相关定义 14-15
2.2 分类 15-16
2.2.1 单标记与多标记分类 15
2.2.2 基于类别的分类与基于文档的分类 15-16
2.3 机器学习方法 16-18
2.4 向量空间模型 18-21
2.4.1 文献空间 18-19
2.4.2 项权重 19-20
2.4.3 相似度度量 20
2.4.4 向量空间模型的优势 20-21
2.5 中文自动分词 21-29
2.5.1 基于词典的分词方法 22-23
2.5.2 基于统计的分词方法 23-25
2.5.3 歧义的消解 25-27
2.5.4 未登录词 27-29
第三章 文本分类 29-43
3.1 项的权重 29-31
3.2 特征选择 31-35
3.3 常用分类算法 35-40
3.3.1 引言 35
3.3.2 文本分类模型 35-37
3.3.3 几种分类算法的研究 37-40
3.4 文本分类的评估指标 40-43
第四章 中文文本自动分类系统的设计与实现 43-54
4.1 系统简介 43
4.2 中文自动分词 43-48
4.2.1 分词词典 44
4.2.2 中文分词模块算法 44-48
4.3 特征提取 48-52
4.3.1 传统的 TF-IDF 加权法 48-49
4.3.2 改进的 TF-IDF 加权法 49-52
4.3.3 本系统所用到的权重设定方法 52
4.4 项打分分类算法的实现 52-53
4.5 本章小结 53-54
第五章 实验及分析 54-60
5.1 实验所用语料库 54
5.2 权重计算算法比较 54-56
5.3 项打分法与 KNN 法结果比较 56-58
5.4 T 取不同值的情况下的实验结果比较 58-60
第六章 总结与展望 60-62
6.1 总结 60-61
6.2 展望 61-62
参考文献 62-68
摘要 68-71
ABSTRACT 71-74
致谢 74-75
导师及作者简介 75
【DOI】 LunWen.ID:2.2008.359554
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:文本分类 论文 中文分词 向量空间模型 特征选择 权重
计算机软件最新论文
计算机软件热门论文