| 【中文题名】 | 基于向量空间的中文科技文献信息检索系统研究 |
| 【英文题名】 | Research on the Chinese Science and Technology Document Information Retrieval System Based on the Vector Space |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-21 |
| 【中关键词】 | 信息检索,向量空间模型,汉语自动分词,矩阵摄动,偏移距离, |
| 【英关键词】 | Information retrieval,Vector space model,Chinese word segmentation,Matrix perturbation,Offset distance, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 |
| 【论文摘要】 |
在实际信息检索系统中,信息检索系统的查全率和查准率都不是很高,针对不同的文献集,信息检索系统的性能也不一样,很多系统尽量适应各种文献的检索,这样性能就更加低效,与其说使检索系统适应各种文献类型不如退而求其次,针对不同的文献类型设计不同的检索系统,本文对使用最多的科技文献的结构进行了分析,针对科技文献的特点,对中文科技文献信息检索系统的各个方面进行了改进。
在讨论科技文献的自动分词之前首先分析了用来标引文献的关键词,根据文献标引中使用的关键词的特点,改进了分词词典和停用词表,使其更加适用于中文科技文献的标引需要。针对文献的五个部分使用了不同的分词算法,对篇名、摘要和参考文献使用双向最大分词算法,可以从中识别出歧义词。对于正文由于词语的重复率比较高,不对正文出现的少量歧义进行处理,也不会对词频产生大的影响。正文就只采用正向最大分词方法。
信息检索系统选用向量空间模型作为检索模型。在基于向量空间的信息检索系统中加入了位置空间,位置空间中篇名、摘要、关键词、正文和参考文献分别作为一个位置来处理,从中提取的关键词单独计算权值,构成位置向量,然后用位置向量来构造文献向量。文献向量构成整个文献空间... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-11 |
|
第1章 绪论 |
11-16 |
|
1.1 研究的目的和意义 |
11 |
|
1.2 相关的研究内容 |
11-13 |
|
1.2.1 中文科技文献的自动分词 |
12-13 |
|
1.2.2 中文科技文献检索系统 |
13 |
|
1.3 本文的主要工作 |
13-14 |
|
1.4 本文的组织结构 |
14-16 |
|
第2章 科技文献的信息检索模型 |
16-26 |
|
2.1 信息检索模型的定义 |
16 |
|
2.2 基本概念 |
16-17 |
|
2.2.1 关键词 |
16-17 |
|
2.2.2 权值 |
17 |
|
2.2.3 停用词 |
17 |
|
2.2.4 关键词和权值的集合表示 |
17 |
|
2.3 布尔检索模型 |
17-20 |
|
2.3.1 布尔检索模型的理论基础 |
18 |
|
2.3.2 布尔模型中文献的表示 |
18 |
|
2.3.3 布尔模型中查询的表示 |
18 |
|
2.3.4 布尔模型的匹配函数 |
18-19 |
|
2.3.5 布尔模型的优缺点及其改进 |
19-20 |
|
2.4 向量空间模型 |
20-23 |
|
2.4.1 向量空间模型的文献空间 |
20 |
|
2.4.2 标引词空间 |
20 |
|
2.4.3 项的权值 |
20-21 |
|
2.4.4 相似度计算 |
21-23 |
|
2.5 概率模型 |
23-25 |
|
2.5.1 事件空间 |
23 |
|
2.5.2 相似度的计算 |
23-25 |
|
2.6 本章小结 |
25-26 |
|
第3章 信息检索系统中的向量空间分析 |
26-44 |
|
3.1 空间的表示 |
26-36 |
|
3.1.1 文献空间的表示 |
26-32 |
|
3.1.2 位置空间的表示 |
32-33 |
|
3.1.3 查询空间的表示 |
33-35 |
|
3.1.4 文献关系矩阵的计算及其语义 |
35-36 |
|
3.2 文献频率和逆文献频率的计算 |
36-40 |
|
3.2.1 对关键词词频(tf)的规范化 |
36-38 |
|
3.2.2 信息检索系统中逆文献频率(idf)的计算 |
38-40 |
|
3.3 检索系统性能的评价 |
40-43 |
|
3.4 对传统向量空间的适应 |
43 |
|
3.5 本章小结 |
43-44 |
|
第4章 关键词分析和自动分词 |
44-60 |
|
4.1 关键词分析 |
45-47 |
|
4.2 文献的结构分析 |
47-49 |
|
4.2.1 文献的物理结构 |
47-48 |
|
4.2.2 文献的逻辑结构 |
48-49 |
|
4.3 汉语自动分词 |
49-55 |
|
4.3.1 分词方法 |
50-53 |
|
4.3.2 自动分词中的歧义处理 |
53-54 |
|
4.3.3 分词词典 |
54-55 |
|
4.4 科技文献信息检索系统中的自动分词 |
55-59 |
|
4.4.1 词典的构建 |
55-56 |
|
4.4.2 分词算法 |
56-59 |
|
4.5 本章小结 |
59-60 |
|
第5章 科技信息检索系统的构建 |
60-71 |
|
5.1 文献中关键词的提取 |
60-61 |
|
5.2 科技文献的向量表示和分析 |
61-70 |
|
5.2.1 位置向量权值的计算 |
61-62 |
|
5.2.2 位置向量的规范化处理 |
62-63 |
|
5.2.3 文献向量的权值计算 |
63-64 |
|
5.2.4 查询向量的表示 |
64 |
|
5.2.5 文献—关键词矩阵的优化分析 |
64-69 |
|
5.2.6 检索系统的评价 |
69-70 |
|
5.3 本章小结 |
70-71 |
|
结论 |
71-73 |
|
参考文献 |
73-77 |
|
攻读硕士学位期间发表的论文和取得的科研成果 |
77-78 |
|
致谢 |
78 |
|
| 【DOI】 | LunWen.ID:2.2008.368988 |