| 【中文题名】 | 基于混合并行遗传算法的文本分类及聚类研究 |
| 【英文题名】 | Research of Text Classification and Clustering Based on Hybrid Parallel Genetic Algorithm |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-17 |
| 【中关键词】 | 遗传算法,文本分类,文本聚类,K-Means聚类,KNN分类, |
| 【英关键词】 | Genetic algorithm,Text classification,Text clustering,K-Means clustering,KNN classification, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 |
文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组织和整理,以便于实现信息的准确定位和分流,从而提高用户查询和检索的效率。
文本分类和聚类的研究开展了四十多年,随着人们对该问题的深入了解和重视,投身此项研究的人员逐渐增多,各种成果不断涌现。然而,文本分类和聚类问题毕竟是一项涉及多学科知识的复杂问题,还有许多问题有待我们深入研究。文本分类和聚类问题中的特征选择和抽取技术、文本特征表示、聚类方法的选择和实现以及分类方法的选择和实现,都将对文本分类和聚类结果产生极大影响。
本文的主要研究工作和创新如下:
1.针对文本分类和聚类中的各种问题,提出了一种混合并行遗传算法。该算法充分利用并行遗传算法的全局优化能力和并行性,以及K-Means聚类算法的高效性和局部优化能力,通过K-Means聚类、种群内遗传和变异、种群间的并行进化和联姻策略,为文本分类和聚类提供了较高的效率和精确度。
2.将混合并行遗传算法应用到文本聚类问题中,采用并行遗传算法对文本特征词进行动态提取,... |
| 【论文题纲】 |
|
摘要 |
4-5 |
|
Abstract |
5-9 |
|
第1章 绪论 |
9-18 |
|
1.1 课题研究的目的和意义 |
9-12 |
|
1.1.1 用户对网络信息的需求 |
9-10 |
|
1.1.2 文本分类和聚类对信息获取的作用 |
10-12 |
|
1.2 国内外研究现状 |
12-13 |
|
1.3 文本分类和聚类存在的问题 |
13-15 |
|
1.4 本文研究内容和目标 |
15-17 |
|
1.5 本文内容组织 |
17-18 |
|
第2章 文本分类和聚类的基本理论及方法 |
18-29 |
|
2.1 文本分类和聚类的概念 |
18-19 |
|
2.1.1 文本分类 |
18 |
|
2.1.2 文本聚类 |
18-19 |
|
2.2 文本的表示 |
19-21 |
|
2.2.1 向量空间模型 |
19 |
|
2.2.2 特征项的权值计算 |
19-20 |
|
2.2.3 文本相似度计算 |
20-21 |
|
2.3 文本特征选择和抽取 |
21-22 |
|
2.3.1 文本预处理 |
21-22 |
|
2.3.2 文本特征选择和抽取 |
22 |
|
2.4 文本分类和聚类方法 |
22-28 |
|
2.4.1 常用的文本分类方法 |
23-26 |
|
2.4.2 常用的文本聚类方法 |
26-28 |
|
2.5 本章小结 |
28-29 |
|
第3章 遗传算法基础知识 |
29-41 |
|
3.1 遗传算法概述 |
29-30 |
|
3.2 标准遗传算法 |
30-31 |
|
3.2 遗传算法染色体编码 |
31-33 |
|
3.2.1 编码原则 |
31-32 |
|
3.2.2 编码方法 |
32-33 |
|
3.3 适应度函数 |
33-35 |
|
3.3.1 适应度函数的构造 |
33-34 |
|
3.3.2 适应度函数的调整 |
34-35 |
|
3.4 遗传算子 |
35-38 |
|
3.4.1 选择算子 |
35-36 |
|
3.4.2 交叉算子 |
36-37 |
|
3.4.3 变异算子 |
37-38 |
|
3.4 并行遗传算法 |
38-40 |
|
3.5 本章小结 |
40-41 |
|
第4章 混合并行遗传算法及其在文本聚类中的应用 |
41-66 |
|
4.1 K-Means算法初始聚类中心的选择 |
41-42 |
|
4.2 混合并行遗传算法 |
42-56 |
|
4.2.1 K值确定的定长染色体编码的混合并行遗传聚类算法 |
43-51 |
|
4.2.2 K值动态变化的可变长染色体编码的混合并行遗传聚类算法 |
51-56 |
|
4.3 基于并行遗传算法的文本特征词提取 |
56-59 |
|
4.3.1 染色体编码 |
57 |
|
4.3.2 交叉算子、变异算子及算法停止标准 |
57 |
|
4.3.3 适应度函数 |
57-58 |
|
4.3.4 种群初始化 |
58-59 |
|
4.4 基于混合并行遗传算法的文本聚类 |
59 |
|
4.5 实验设置及结果分析 |
59-65 |
|
4.5.1 染色体编码方案比较 |
60-62 |
|
4.5.2 特征词提取算法性能测试 |
62-63 |
|
4.5.3 文本聚类算法性能测试 |
63-65 |
|
4.6 本章小结 |
65-66 |
|
第5章 混合并行遗传算法在文本分类中的应用 |
66-79 |
|
5.1 基于混合并行遗传算法的潜在语义挖掘 |
66-70 |
|
5.1.1 贝叶斯语义模型 |
67 |
|
5.1.2 特征词相似性度量 |
67-68 |
|
5.1.3 特征词的粗聚类 |
68-69 |
|
5.1.4 特征词的精聚类 |
69 |
|
5.1.5 特征重构 |
69-70 |
|
5.2 基于混合并行遗传聚类的KNN改进算法(HPGA-KNN) |
70-72 |
|
5.3 SMO-SVM算法 |
72-73 |
|
5.4 SMO-SVM算法核函数参数优化 |
73-74 |
|
5.5 改进的KNN+SVM文本分类方法 |
74-75 |
|
5.6 实验设置及分析 |
75-78 |
|
5.6.1 基于混合并行遗传算法的潜在语义挖掘性能测试 |
75-76 |
|
5.6.2 混合并行遗传聚类对KNN算法的改进效果测试 |
76-77 |
|
5.6.3 参数优化对SMO-SVM算法的性能影响 |
77 |
|
5.6.4 文本分类算法对比实验 |
77-78 |
|
5.7 本章小结 |
78-79 |
|
第6章 全文总结和研究展望 |
79-81 |
|
6.1 全文总结 |
79 |
|
6.2 后续研究工作展望 |
79-81 |
|
参考文献 |
81-85 |
|
攻读硕士学位期间发表的论文和参与的科研项目 |
85-86 |
|
致谢 |
86 |
|
| 【DOI】 | LunWen.ID:2.2008.388789 |