| 【中文题名】 | 一种基于eEPs的中文文本自动分类算法 |
| 【英文题名】 | |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2006-10-10 |
| 【中关键词】 | 中文文本自动分类,特征提取,文档频率,区分能力,显露模式, |
| 【英关键词】 | Chinese text automatic categorization,Feature extraction,Document frequency,Distinguish capacity,Emerging patterns, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理 |
| 【论文摘要】 | 为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取所需要的知识和信息,人们希望能够按照内容实现对网页的自动分类。Web的迅猛发展为文本自动分类技术提供了一个前所未有的实验环境和应用平台,同时也带来了新的挑战。而作为Web网页自动分类技术基础的文本自动分类技术也迅速地发展起来。
基于文档频率的特征提取方法计算复杂度低,而且提取出的特征的分类效果也和卡方检验以及信息增益等方法相当,比较适合于大规模的文本分类任务。但是通过分析我们发现,由于仅仅使用文档频率来衡量特征的区分能力,文档频率方法存在两个问题。
显露模式是那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们对分类是有用的,这是因为这些项集能够捕获数据库中两个数据集之间的多属性差异,具有很好的分类性能。而eEPs(Essential Emerging Patterns)是一种最具表达能力的、特殊的EPs,称为基本显露模式。它不仅具有EPs的优点,可以用来构造准确的分类器,而且数量比EPs少很多,可以快速方便地挖掘和使用。
基于EPs的分类方法并不把样本看作n维空间的点,而是把它们看作项的集... |
| 【论文题纲】 |
|
摘要 |
3-5 |
|
Abstract |
5-7 |
|
目录 |
7-9 |
|
第一章 引言 |
9-12 |
|
1.1 研究背景 |
9 |
|
1.2 文本自动分类技术概述 |
9-10 |
|
1.3 本文工作和结构安排 |
10-12 |
|
第二章 中文文本自动分类技术 |
12-21 |
|
2.1 中文文本自动分类的过程 |
12 |
|
2.2 特征提取 |
12-15 |
|
2.2.1 文档频率(Document Frequency,DF) |
13-14 |
|
2.2.2 信息增益(Information Gain,IG) |
14 |
|
2.2.3 互信息(Mutual information,MI) |
14-15 |
|
2.2.4 开方拟和检验(x~2-test,CHI) |
15 |
|
2.3 分类算法 |
15-19 |
|
2.3.1 Rocchio算法 |
15-16 |
|
2.3.2 朴素贝叶斯(Na(i|¨)ve Bayes,NB) |
16-17 |
|
2.3.3 k最近邻居算法 |
17 |
|
2.3.4 支持向量机算法 |
17-18 |
|
2.3.5 决策树(Dtree,Decision Tree)算法 |
18-19 |
|
2.3.6 关于分类算法 |
19 |
|
2.4 对分类系统的评价 |
19-21 |
|
第三章 EPs和eEPs的概念 |
21-36 |
|
3.1 EPs和eEPs的概念及特性 |
21-26 |
|
3.1.1 EPs的概念 |
21-23 |
|
3.1.2 EPs的特性及其常见形式 |
23-25 |
|
3.1.3 eEPs的特性 |
25-26 |
|
3.2 基于EPs和eEPs的分类算法 |
26-36 |
|
3.2.1 基于EPs的分类特点 |
27-28 |
|
3.2.2 基于EPs的分类算法 |
28-33 |
|
3.2.3 基于eEPs的分类算法 |
33-36 |
|
第四章 基于eEP的文本分类算法TCEP |
36-45 |
|
4.1 预处理过程 |
36-38 |
|
4.2 基于区分能力的特征提取方法 |
38-40 |
|
4.3 基于eEPs的中文文本分类算法TCEP |
40-45 |
|
4.3.1 预处理及特征提取模块的实现 |
41-42 |
|
4.3.2 挖掘eEPs |
42-43 |
|
4.4.3 对未知样本的分类 |
43-45 |
|
第五章 算法TCEP的性能分析 |
45-52 |
|
5.1 实验数据 |
45-46 |
|
5.2 类个数阈值β对分类性能的影响 |
46-47 |
|
5.3 基于区分能力的特征提取方法和文档频率方法的比较 |
47-48 |
|
5.4 算法TCEP与其它算法的比较 |
48-52 |
|
结束语 |
52-53 |
|
致谢 |
53-54 |
|
参考文献 |
54-58 |
|
附录:硕士期间发表的学术论文 |
58 |
|
| 【DOI】 | LunWen.ID:2.2008.364726 |