基于关联规则和向量空间模型的文本分类研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 自动化 >> 自动化基础 >> 正文
基于关联规则和向量空间模型的文本分类研究
Form: 论文之家 作者:叶振宇 Publish: 2007-6-11 Hits:-
【中文题名】 基于关联规则和向量空间模型的文本分类研究
【英文题名】 Research of Text Categorization Base on Vector Space Model and Association Rules
【学科专业】 软件工程
【论文级别】 硕士论文
【投稿时间】 2007-6-11
【中关键词】 向量空间模型,关联规则,文本分类,特征选择,数据挖掘,
【英关键词】 vector space model,association rule,text categorization,feature selection,data mining,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理
【论文摘要】  文本分类技术涉及到信息检索,模式识别,机器学习等领域。它将文本按照人工事先分好的类别自动归类,而将该技术应用到信息检索时,则能提升搜索引擎的效果。经典的文本分类包括两大步骤:(1)提取文本中的特征项,并对原始特征项进行选择,最后把文本映射到向量空间模型中去;(2)利用某个分类算法分类。 然而向量空间模型有其缺点,它假设所有的特征项之间是相互独立的,事实并非如此,因此它无法发掘特征项之间的关联性。关联规则挖掘是数据挖掘一个重要领域,用于从海量数据库中寻找隐含的规则。利用关联规则挖掘文本则首先要将文本转换成事务,把一个文本看成是一个事务,文本中的特征项是事务中的项(item)。本文将分类关联规则引入特征选择过程,提出了一种二次特征选择方法。由于文本事务数据库的稀疏性,直接用关联规则挖掘不但开销大,而且效果不是很好。通过观察原始特征库,将库中特征项大致分成四类。先用类间DF“落差”初步过滤,获得对分类贡献较大的模糊词和分类词。该方法简单易行,系统开销小,过滤强度可通过阈值调节。在此基础上对第一次选择结果用CBA-RG算法进行类别关联规则挖掘,用挖掘出来的关联规则的前件组成特征集。实验证明,这种方法...
【论文题纲】
摘要 4-5
Abstract 5-8
第一章 绪论 8-10
1.1 背景和意义 8
1.2 问题描述 8-9
1.3 国内外研究现状 9
1.4 本章小结 9-10
第二章 文本的向量表示 10-23
2.1 向量空间模型简介 10-11
2.2 汉语分词 11-14
2.3 特征抽取(Feature extraction) 14-18
2.4 分类算法 18-21
2.5 评估准则 21-22
2.6 本章小结 22-23
第三章 关联规则挖掘 23-32
3.1 数据挖掘和KDD 23-25
3.2 关联规则的概念及分类 25-26
3.3 关联规则挖掘算法 26-31
3.4 本章小结 31-32
第四章 关联特征选择研究 32-37
4.1 向量空间模型的缺点 32
4.2 挖掘特征项与类别的关系 32-34
4.3 二次特征选择 34-36
4.4 本章小结 36-37
第五章 实验设计与结果 37-41
5.1 实验软硬件设备 37
5.2 系统架构 37-38
5.3 实验结果与分析 38-41
第六章 结论和将来工作 41-42
参考文献 42-45
作者简介 45
致谢 45
【DOI】 LunWen.ID:2.2008.388569
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:向量空间模型 论文 关联规则 文本分类 特征选择 数据挖掘
自动化基础最新论文
自动化基础热门论文