| 【中文题名】 | 基于潜在语义分析的大学概况中文问答系统 |
| 【英文题名】 | |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2004-7-7 |
| 【中关键词】 | 问答系统潜在语义分析,信息检索,文本段检索,自然语言处理,, |
| 【英关键词】 | Question Answering System,Latent Semantic Analysis,Information Retrieval,Passage Retrieval,Natural Language Processing, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 | 问答系统是指能够根据用户输入的自然语言描述的问题从大量文本集中找出确切答案的计算机程序。
目前的检索系统只能定位出相关文本,却把具体信息检索的任务留给了用户自己,人们迫切需要一个能定位出用户感兴趣的信息而不是整篇文本的检索系统。基于以上原因,我们设计了一个基于潜在语义分析技术的大学概况中文问答系统QASYS,由于中国大学有上千所,每所大学的网页又是包罗万象,想查出确切信息要花费很长的时间。本系统将使这种查询变得相对简单,这对于想了解各院校情况的高考生们会提供很大的帮助。
本系统引入了潜在语义分析技术进行信息检索,避免了传统信息检索系统的同义词和多义词问题,提高了检索精度。另外,自然语言处理技术在问答系统中也起着至关重要的作用,包括特征项抽取、词频统计、语法和语义分析等。
整个系统划分为三个模块:文本库预处理模块、问题分析模块和答案抽取模块。
文本库预处理模块包括网页抓取、HTML格式滤除、分词、标注、词频统计、特征项提取等工作,并根据tf*idf变形公式计算每一个项的权重,生成项/文本矩阵;最后,对项/文本矩阵进行奇异值分解生成潜在语义空间。
问题分... |
| 【论文题纲】 |
|
0 前言 |
7-8 |
|
1 绪论 |
8-12 |
|
1.1 问答系统的发展史 |
8-9 |
|
1.2 问答系统常用的技术手段 |
9-10 |
|
1.3 问答系统的发展前景 |
10 |
|
1.4 课题涉及的主要研究内容 |
10-11 |
|
1.5 论文的组织 |
11-12 |
|
2 问答系统通用体系结构 |
12-20 |
|
2.1 问题分析 |
13-14 |
|
2.2 文本库预处理 |
14-16 |
|
2.3 候选文本选择及分析 |
16-18 |
|
2.4 答案抽取及分析 |
18 |
|
2.5 类型匹配并排序 |
18-19 |
|
2.6 答案提交 |
19-20 |
|
3 潜在语义分析技术 |
20-30 |
|
3.1 潜在语义分析技术的产生背景 |
20-21 |
|
3.2 潜在语义分析技术的理论基础 |
21-26 |
|
3.2.1 项/文本矩阵 |
21-22 |
|
3.2.2 奇异值分解SVD |
22-25 |
|
3.2.3 潜在语义分析技术的数学依据 |
25-26 |
|
3.3 潜在语义分析技术的思想和特点 |
26 |
|
3.4 潜在语义分析技术的实现方法 |
26-27 |
|
3.5 潜在语义分析中各种相似关系的计算 |
27-29 |
|
3.6 潜在语义分析技术的应用 |
29-30 |
|
4 系统总体设计 |
30-35 |
|
4.1 系统设计目标 |
30 |
|
4.2 系统设计思想 |
30-31 |
|
4.3 系统体系结构 |
31-35 |
|
5 系统设计和实现 |
35-52 |
|
5.1 文本库预处理 |
35-43 |
|
5.1.1 网页抓取及HTML格式滤除 |
35-39 |
|
5.1.2 分词与词性标注 |
39-41 |
|
5.1.3 特征项提取及项/文本矩阵生成 |
41-42 |
|
5.1.4 潜在语义空间生成 |
42-43 |
|
5.2 问题分析模块 |
43-45 |
|
5.2.1 问题分类和答案类型分析 |
43-45 |
|
5.2.2 特征项提取和查询的向量表示 |
45 |
|
5.3 答案抽取模块 |
45-50 |
|
5.3.1 相关文本检索 |
46-47 |
|
5.3.2 文本段抽取 |
47-50 |
|
5.3.3 答案抽取 |
50 |
|
5.4 系统功能界面及测试结果 |
50-52 |
|
6 结束语 |
52-54 |
|
6.1 研究工作小结 |
52 |
|
6.2 本系统目前存在的问题和以后的改进工作 |
52-54 |
|
参考文献 |
54-56 |
|
致谢 |
56-58 |
|
| 【DOI】 | LunWen.ID:2.2008.387048 |