基于Bayes方法的文本分类器的研究与实现
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 自动化 >> 自动化基础 >> 正文
基于Bayes方法的文本分类器的研究与实现
Form: 论文之家 作者:陈剑敏 Publish: 2007-10-25 Hits:-
【中文题名】 基于Bayes方法的文本分类器的研究与实现
【英文题名】 The Research and Implement of Naive Bayes Text Classification Algorithm
【学科专业】 计算机系统结构
【论文级别】 硕士论文
【投稿时间】 2007-10-25
【中关键词】 文本分类,独立性假设,相关性,互信息,,
【英关键词】 text classification,independence hypothesis,relativity,Mutual Information,
【分类导航】 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>>
【论文摘要】  从大量的数据中挖掘出有用的信息是数据挖掘的任务。随着互联网的迅速发展,web已经发展成为拥有上亿页面的分布式信息空间。在信息急剧丰富的同时经过加工的知识信息却相对匮乏,文本是互联网上主要的信息载体,因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。文本分类技术是文本挖掘的基础和核心。 20世纪90年代以后,基于机器学习的文本自动分类方法越来越成为主流,它具有周期短,效率高,节省人力资源,分类结果一致性高等优点。但文本自动分类研究自开展以来,准确率一直不能达到令人满意的效果。目前,Internet信息急剧膨胀,文本分类有了广阔的发展空间,文本自动分类面临前所未有的机遇和挑战,如何提高分类准确率成为研究热点。 朴素贝叶斯(Naive Bayes)分类器是当前使用比较广泛的一种文本分类方法,它应用统计理论进行文本分类。在朴素贝叶斯分类方法中,有一个“独立性假设”:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息,而在用传统的向量空间模型表示文本时该信息极有可能丢失。 ...
【论文题纲】
摘要 3-4
ABSTRACT 4-8
1 绪论 8-13
1.1 引言 8
1.2 文本分类问题 8-11
1.2.1 文本分类的研究目的和意义 9-10
1.2.2 文本分类的研究现状 10
1.2.3 贝叶斯方法与文本分类 10-11
1.3 本文的研究内容和组织结构 11-13
1.3.1 本文的研究内容 11
1.3.2 本文的组织结构 11-13
2 基于向量空间模型的文本分类算法 13-21
2.1 文本预处理和向量空间模型 13-16
2.1.1 分词 13-14
2.1.2 向量表示 14
2.1.3 特征选择 14-16
2.2 基于向量空间模型的文本分类方法 16-19
2.2.1 简单距离向量判别法 17
2.2.2 Knn 算法 17
2.2.3 归纳逻辑方法 17-18
2.2.4 支持向量机算法 18
2.2.5 其他文本分类方法 18-19
2.3 文本分类的评价方法 19-21
3 贝叶斯理论与贝叶斯分类方法 21-30
3.1 引言 21
3.2 贝叶斯分类方法的原理 21-22
3.2.1 贝叶斯定理和极大后验假设 21-22
3.2.2 事件的独立性 22
3.3 贝叶斯分类模型 22-28
3.3.1 朴素贝叶斯分类 23-24
3.3.2 贝叶斯网络 24-26
3.3.3semi-bayes 分类方法 26-27
3.3.4 tan 分类方法 27-28
3.4 贝叶斯算法应用于文本分类 28-29
3.5 小结 29-30
4 朴素贝叶斯文本分类方法及其改进 30-41
4.1 朴素贝叶斯文本分类方法及其存在的问题 30-32
4.1.1 朴素贝叶斯文本分类器 30-31
4.1.2 朴素贝叶斯文本分类器存在的一些问题 31-32
4.2 相关特征项对文本分类的影响 32-33
4.3 特征项相关性的度量 33-37
4.3.1 互信息量 33-34
4.3.2 互信息在自然语言处理上的应用 34-35
4.3.3 利用互信息度量特征项之间的相关性 35-37
4.4 基于特征相关性的朴素贝叶斯文本分类模型 37-39
4.5 反馈方法应用于贝叶斯文本分类 39-40
4.6 结论 40-41
5 分类系统的结构与实现 41-47
5.1 分类系统的结构与模块说明 41-42
5.2 系统采用的关键算法 42-44
5.2.1 特征提取算法 42-43
5.2.2 分类算法 43-44
5.3 实验及结果分析 44-47
5.3.1 实验结果 44-45
5.3.2 实验结论 45-47
6 总结和进一步的工作 47-49
6.1 总结 47
6.2 下一步的工作 47-49
致谢 49-50
参考文献 50-53
附录:作者在硕士在读期间发表的论文 53
【DOI】 LunWen.ID:2.2008.389088
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:文本分类 论文 独立性假设 相关性 互信息
自动化基础最新论文
自动化基础热门论文