| 【中文题名】 | 军用信息自动分类的研究与实现 |
| 【英文题名】 | |
| 【学科专业】 | 系统工程 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2004-9-9 |
| 【中关键词】 | 军用信息,自动分类,向量空间模型,数据库,, |
| 【英关键词】 | military information, text categorization, VSM, database, |
| 【分类导航】 | 军事>军事理论>军事管理学>军队指挥学>> |
| 【论文摘要】 | 军用信息的自动分类作为实现军用信息智能化处理的关键技术之一,是提高指挥效能必不可少的重要环节。本文研究并设计了军用信息的自动分类系统,其中包括:获取军用信息的训练集、建立军用信息的表示模型、确定军用信息的属性、选择军用信息分类模型和评估分类性能五个主要模块。本文主要完成了以下几个方面的创新工作:
1.通过对一般文本的表示模型的分析,并结合基于XML的军用信息的特点,对向量空间模型的权值计算方法进行了改进,并在预处理阶段提出了一种新的最大匹配分词算法。
2.针对原有互信息属性选择存在的偏向于低频词的问题,提出了一种改进的基于互信息的军用信息属性选择算法。
3.将反馈模块引入简单向量空间分类算法中,使得向量距离法和反馈方法相结合,从而大大提高了分类的精度。
4.综合了上述算法思想和模型,设计并实现了军用信息自动分类的软件系统,构建了军用信息的总体结构和分类体系,研究了各个模块之间的相互关系,同时对该系统的性能进行了测试和评估。 |
| 【论文题纲】 |
|
1 绪论 |
6-11 |
|
1.1 军用信息自动分类的意义 |
6-8 |
|
1.1.1 现代战争的信息化特点 |
6 |
|
1.1.2 文书自动化处理的客观需要 |
6-7 |
|
1.1.3 C~4ISR的网络环境为军用信息自动分类提供平台 |
7 |
|
1.1.4 军用信息的语言特点方便于自动分类 |
7-8 |
|
1.2 自动分类技术的发展过程及研究现状 |
8-10 |
|
1.2.1 自动分类在国内外的发展过程 |
8-9 |
|
1.2.2 自动分类技术的研究现状 |
9-10 |
|
1.3 本文的研究内容与主要工作安排 |
10-11 |
|
2 军用信息自动分类的框架体系 |
11-18 |
|
2.1 自动分类系统概述 |
11-13 |
|
2.1.1 分类问题的数学描述 |
11-12 |
|
2.1.2 自动分类系统的种类 |
12-13 |
|
2.2 军用信息分类系统的体系结构及其功能 |
13-17 |
|
2.2.1 军用信息分类系统的体系 |
13-15 |
|
2.2.2 军用信息分类系统的结构组成及其功能 |
15-17 |
|
2.4 本章小结 |
17-18 |
|
3 军用信息的表示模型研究 |
18-32 |
|
3.1 军用信息的表示模型 |
18-22 |
|
3.1.1 表示模型的选择 |
18-20 |
|
3.1.2 特征单元的确定 |
20-22 |
|
3.2 预处理中分词算法的改进 |
22-25 |
|
3.2.1 军用信息词典 |
22-23 |
|
3.2.2 半全切分最大匹配法 |
23-24 |
|
3.2.3 改进MM法的分词效果 |
24-25 |
|
3.3 向量空间模型(VSM) |
25-28 |
|
3.3.1 向量空间模型的基本思想 |
25-26 |
|
3.3.2 VSM中权值的计算方法 |
26-27 |
|
3.3.3 对向量空间模型的几点思考 |
27-28 |
|
3.4 结合军用信息的改进权值计算 |
28-31 |
|
3.4.1 已有的一些改进算法 |
28-29 |
|
3.4.2 基于XML的标准化军用文书 |
29 |
|
3.4.3 针对基于XML的军用信息的权重算法改进 |
29-31 |
|
3.5 本章小结 |
31-32 |
|
4 军用信息的属性选择--特征提取 |
32-39 |
|
4.1 特征提取概述 |
32-35 |
|
4.1.1 军用信息特征提取的目的 |
32-33 |
|
4.1.2 几种典型的特征提取算法 |
33-35 |
|
4.2 军用信息中的特征提取 |
35-38 |
|
4.2.1 提取军用信息特征的互信息法 |
35-36 |
|
4.2.2 改进的互信息法 |
36-38 |
|
4.3 本章小结 |
38-39 |
|
5 军用信息的分类算法模型 |
39-45 |
|
5.1 几种典型的分类算法 |
39-41 |
|
5.1.1 简单向量距离分类法 |
39-40 |
|
5.1.2 贝叶斯算法 |
40 |
|
5.1.3 kNN算法 |
40-41 |
|
5.2 军用信息中的简单向量距离法 |
41-42 |
|
5.3 带反馈的类中心向量距离法 |
42-44 |
|
5.3.1 带反馈分类的基本思想 |
42-43 |
|
5.3.2 带反馈的分类算法 |
43-44 |
|
5.4 本章小结 |
44-45 |
|
6 军用信息分类系统MICS的设计与实现 |
45-60 |
|
6.1 分类体系的选择 |
45-46 |
|
6.2 MICS的总体结构及各模块功能 |
46-51 |
|
6.2.1 军用信息分类系统的总体结构 |
46-48 |
|
6.2.2 各模块算法及功能 |
48-51 |
|
6.3 系统的具体实现 |
51-54 |
|
6.3.1 软件开发工具的选择 |
51-52 |
|
6.3.2 MICS的软件实现 |
52-54 |
|
6.4 性能测试及实验结果的分析 |
54-58 |
|
6.4.1 军用信息训练集的获取 |
54-55 |
|
6.4.2 性能评价指标 |
55-56 |
|
6.4.3 MICS性能测试结果 |
56-57 |
|
6.4.4 存在的不足及下一步的改进 |
57-58 |
|
6.5 结论与展望 |
58-59 |
|
6.6 本章小结 |
59-60 |
|
结束语 |
60-61 |
|
致谢 |
61-62 |
|
参考文献 |
62-64 |
|
| 【DOI】 | LunWen.ID:2.2008.247601 |