| 【中文题名】 | XML文本文档检索技术研究 |
| 【英文题名】 | Research on Rich-text XML Document Retrieval |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-3-14 |
| 【中关键词】 | XML检索,答案结点,权重,CAS,排序, |
| 【英关键词】 | XML Retrieval,Answer Node,Weight,SCAS,Ranking, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 |
| 【论文摘要】 | XML具有自描述性、可扩展性,既有内容也有结构信息,XML文档常见于Internet上存在的网页、商业文本、数字图书馆等,XML文档数量正呈指数级增长。如何有效地解决异构的XML文档集的检索已变得非常重要。
依据内容,XML文档分为两类:以数据为中心(data-centric)和以文档为中心(document-centric)。以数据为中心的XML文档的检索一般采用数据库方式(DB-style)查询,如已成为W3C标准的XPath和XQuery查询语言;以文本信息为中心的XML文档多采用信息检索方式(IR-style)查询。
信息检索不同于数据库检索,它是一种非精确的、模糊的和部分的匹配过程。XML文档是异构的结构与文本内容结合的半结构化数据,针对XML文档的信息检索不是传统信息检索的简单延伸:①带结构信息的XML文档检索返回XML元素结点(片断),而传统的信息检索返回整个文档或网页;②传统的文档检索是关键词检索,它没有结构信息,XML检索不仅有内容约束,还要有结构约束,要求关键词查询和结构查询相结合;③XML检索要求统一的排序机制以适应模糊内容和结构(VCAS)的检索:④XM... |
| 【论文题纲】 |
|
摘要 |
7-9 |
|
Abstract |
9-11 |
|
1. 绪论 |
11-25 |
|
1.1 研究背景 |
11-19 |
|
1.1.1 XML的提出 |
11-13 |
|
1.1.2 XML的特征 |
13-14 |
|
1.1.3 XML文档的检索 |
14-19 |
|
1.2 国内外研究综述 |
19-24 |
|
1.3 本文的主要研究内容 |
24 |
|
1.4 论文结构安排 |
24-25 |
|
2. 传统文本文档检索 |
25-34 |
|
2.1 信息检索描述 |
25-26 |
|
2.2 信息检索过程 |
26-27 |
|
2.3 经典信息检索模型 |
27-31 |
|
2.3.1 布尔模型(Boolean Model) |
28 |
|
2.3.2 向量空间模型(VSM,Vector Space Model) |
28-30 |
|
2.3.3 概率模型(Probabilistic Model) |
30-31 |
|
2.3.4 检索模型的比较和选择 |
31 |
|
2.4 检索评价 |
31-33 |
|
2.4.1 查全率和查准率 |
32 |
|
2.4.2 其它测试方法 |
32-33 |
|
2.5 本章小结 |
33-34 |
|
3. XML数据查询语言 |
34-40 |
|
3.1 XPath路径语言 |
35-37 |
|
3.2 XQuery查询语言 |
37-39 |
|
3.3 本章小结 |
39-40 |
|
4. XML文本文档检索模型设计 |
40-51 |
|
4.1 引言 |
40-43 |
|
4.2 XML文档检索的特性分析 |
43-44 |
|
4.3 小枝模式下的多关键词检索结果排序模型 |
44-48 |
|
4.3.1 查询结果与查询条件在关键词上的相似度计算 |
45-46 |
|
4.3.2 查询结果与查询条件在结构上的相似度计算 |
46-48 |
|
4.3.3 小枝模式下的多关键词检索相似度排序模型 |
48 |
|
4.4 可配置权重的模糊检索排序模型 |
48-50 |
|
4.5 本章小结 |
50-51 |
|
5. 检索实现与实验评价 |
51-63 |
|
5.1 检索实现 |
51-56 |
|
5.1.1 搜索引擎体系结构 |
51 |
|
5.1.2 系统的处理流程 |
51-53 |
|
5.1.3 索引结构 |
53-56 |
|
5.2 实验数据集及topX搜索引擎介绍 |
56-57 |
|
5.3 实验评价 |
57-62 |
|
5.3.1 简单路径查询实验比较 |
57-61 |
|
5.3.2 小枝查询实验比较 |
61-62 |
|
5.4 本章小结 |
62-63 |
|
6. 总结与展望 |
63-64 |
|
参考文献 |
64-67 |
|
附录I 词根抽取算法 |
67-72 |
|
附录II 停用词表 |
72-75 |
|
附录III 攻读硕士学位期间发表论文及参与课题 |
75-76 |
|
致谢 |
76 |
|
| 【DOI】 | LunWen.ID:2.2008.366162 |