基于向量空间的中文科技文献信息检索系统研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机应用 >> 正文
基于向量空间的中文科技文献信息检索系统研究
Form: 论文之家 作者:吕鸿略 Publish: 2007-8-21 Hits:-
【中文题名】 基于向量空间的中文科技文献信息检索系统研究
【英文题名】 Research on the Chinese Science and Technology Document Information Retrieval System Based on the Vector Space
【学科专业】 计算机软件与理论
【论文级别】 硕士论文
【投稿时间】 2007-8-21
【中关键词】 信息检索,向量空间模型,汉语自动分词,矩阵摄动,偏移距离,
【英关键词】 Information retrieval,Vector space model,Chinese word segmentation,Matrix perturbation,Offset distance,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机
【论文摘要】  在实际信息检索系统中,信息检索系统的查全率和查准率都不是很高,针对不同的文献集,信息检索系统的性能也不一样,很多系统尽量适应各种文献的检索,这样性能就更加低效,与其说使检索系统适应各种文献类型不如退而求其次,针对不同的文献类型设计不同的检索系统,本文对使用最多的科技文献的结构进行了分析,针对科技文献的特点,对中文科技文献信息检索系统的各个方面进行了改进。 在讨论科技文献的自动分词之前首先分析了用来标引文献的关键词,根据文献标引中使用的关键词的特点,改进了分词词典和停用词表,使其更加适用于中文科技文献的标引需要。针对文献的五个部分使用了不同的分词算法,对篇名、摘要和参考文献使用双向最大分词算法,可以从中识别出歧义词。对于正文由于词语的重复率比较高,不对正文出现的少量歧义进行处理,也不会对词频产生大的影响。正文就只采用正向最大分词方法。 信息检索系统选用向量空间模型作为检索模型。在基于向量空间的信息检索系统中加入了位置空间,位置空间中篇名、摘要、关键词、正文和参考文献分别作为一个位置来处理,从中提取的关键词单独计算权值,构成位置向量,然后用位置向量来构造文献向量。文献向量构成整个文献空间...
【论文题纲】
摘要 5-6
Abstract 6-11
第1章 绪论 11-16
1.1 研究的目的和意义 11
1.2 相关的研究内容 11-13
1.2.1 中文科技文献的自动分词 12-13
1.2.2 中文科技文献检索系统 13
1.3 本文的主要工作 13-14
1.4 本文的组织结构 14-16
第2章 科技文献的信息检索模型 16-26
2.1 信息检索模型的定义 16
2.2 基本概念 16-17
2.2.1 关键词 16-17
2.2.2 权值 17
2.2.3 停用词 17
2.2.4 关键词和权值的集合表示 17
2.3 布尔检索模型 17-20
2.3.1 布尔检索模型的理论基础 18
2.3.2 布尔模型中文献的表示 18
2.3.3 布尔模型中查询的表示 18
2.3.4 布尔模型的匹配函数 18-19
2.3.5 布尔模型的优缺点及其改进 19-20
2.4 向量空间模型 20-23
2.4.1 向量空间模型的文献空间 20
2.4.2 标引词空间 20
2.4.3 项的权值 20-21
2.4.4 相似度计算 21-23
2.5 概率模型 23-25
2.5.1 事件空间 23
2.5.2 相似度的计算 23-25
2.6 本章小结 25-26
第3章 信息检索系统中的向量空间分析 26-44
3.1 空间的表示 26-36
3.1.1 文献空间的表示 26-32
3.1.2 位置空间的表示 32-33
3.1.3 查询空间的表示 33-35
3.1.4 文献关系矩阵的计算及其语义 35-36
3.2 文献频率和逆文献频率的计算 36-40
3.2.1 对关键词词频(tf)的规范化 36-38
3.2.2 信息检索系统中逆文献频率(idf)的计算 38-40
3.3 检索系统性能的评价 40-43
3.4 对传统向量空间的适应 43
3.5 本章小结 43-44
第4章 关键词分析和自动分词 44-60
4.1 关键词分析 45-47
4.2 文献的结构分析 47-49
4.2.1 文献的物理结构 47-48
4.2.2 文献的逻辑结构 48-49
4.3 汉语自动分词 49-55
4.3.1 分词方法 50-53
4.3.2 自动分词中的歧义处理 53-54
4.3.3 分词词典 54-55
4.4 科技文献信息检索系统中的自动分词 55-59
4.4.1 词典的构建 55-56
4.4.2 分词算法 56-59
4.5 本章小结 59-60
第5章 科技信息检索系统的构建 60-71
5.1 文献中关键词的提取 60-61
5.2 科技文献的向量表示和分析 61-70
5.2.1 位置向量权值的计算 61-62
5.2.2 位置向量的规范化处理 62-63
5.2.3 文献向量的权值计算 63-64
5.2.4 查询向量的表示 64
5.2.5 文献—关键词矩阵的优化分析 64-69
5.2.6 检索系统的评价 69-70
5.3 本章小结 70-71
结论 71-73
参考文献 73-77
攻读硕士学位期间发表的论文和取得的科研成果 77-78
致谢 78
【DOI】 LunWen.ID:2.2008.368988
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:信息检索 论文 向量空间模型 汉语自动分词 矩阵摄动 偏移距离
计算机应用最新论文
计算机应用热门论文