| 【中文题名】 | 中文口语交互式开放域问答系统关键技术研究 |
| 【英文题名】 | Key Technique of Chinese Spoken Open-Domain Question Answer System |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-24 |
| 【中关键词】 | 问答系统,语音处理,问题分析与处理,信息检索,答案抽取, |
| 【英关键词】 | Question-Answering System,Question Analysis and Processing,Information Retrieval,Answer Extracts, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理 |
| 【论文摘要】 |
自然语言问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。自然语言问答的人机界面、精确和实时是自然语言问答系统的三大研发目标。其中,精确性是中文语言问答系统的首要目标。为达到这一目标,在用户问句处理方面,需对用户输入的问句进行正确的分词、同义词扩充、名实体标注、句法分析、答案类型标注等等处理。对于知识源文档,也要进行同样的处理。对于基于传统IR技术的问答系统来说,还需要一个综合考察用户问句与文本片断的之间相似度计算方法。可以说,实现问答系统所需要的技术涉及计算语言学的方方面面。
中文口语交互式开放域问答系统正是在此基础上兴起的一个前沿研究方向,本文介绍了中文口语交互式开放域问答系统的发展现状和常用的关键技术。中文口语交互式开放域问答系统包括四个主要部分:语音处理、问题分析与处理、信息检索、答案抽取和答案选择。本文分别介绍了这四个主要组成部分所涉及的关键技术,提出了规范化问题类型库的概念和简单模型,最后还介绍了中文口语交互式开放域问答系统的简单实现和评价问题。
语音处理包括语音识别和语音合成两部分。用户使用自然语言口语提出的问题首先由语音识别部分通过... |
| 【论文题纲】 |
|
摘要 |
2-4 |
|
Abstract |
4-10 |
|
第1章 绪论 |
10-17 |
|
1.1 课题背景 |
10-11 |
|
1.2 课题的研究目的与意义 |
11-13 |
|
1.3 中文口语交互式开放域问答系统在国内外的研究现状 |
13-14 |
|
1.4 主要工作 |
14-16 |
|
1.4.1 基础理论研究 |
15 |
|
1.4.2 问题分析与处理 |
15 |
|
1.4.3 规范化问题库 |
15-16 |
|
1.4.4 FAQ 库 |
16 |
|
1.5 论文的安排和内容 |
16-17 |
|
第2章 汉语语音处理技术 |
17-32 |
|
2.1 语音识别技术 |
17-18 |
|
2.2 汉语语音识别中的关键技术 |
18-23 |
|
2.2.1 语音识别基元的选取 |
18-19 |
|
2.2.2 语音特征参数的提取 |
19-20 |
|
2.2.3 模式识别 |
20-23 |
|
2.2.3.1 动态时间规整技术 |
20-21 |
|
2.2.3.2 隐马尔柯夫模型技术 |
21 |
|
2.2.3.3 矢量量化技术 |
21-22 |
|
2.2.3.4 人工神经网络技术 |
22-23 |
|
2.2.3.5 混合型模式识别技术 |
23 |
|
2.3 连续语音识别 |
23-24 |
|
2.4 国内语音识别技术的近况 |
24 |
|
2.5 语音合成技术 |
24-31 |
|
2.5.1 共振峰合成 |
26-29 |
|
2.5.2 LPC 参数合成 |
29-30 |
|
2.5.3 PSOLA 合成技术 |
30-31 |
|
2.5.4 LMA 声道模型 |
31 |
|
2.6 实现口语交互的需求分析 |
31-32 |
|
第3章 问题分析与处理 |
32-41 |
|
3.1 问题答案语义映射表 |
32-34 |
|
3.2 问题的焦点 |
34 |
|
3.3 关键词提取 |
34 |
|
3.4 关键词扩展 |
34-35 |
|
3.5 规范化问题库 |
35-40 |
|
3.6 基于统计的问题分析与处理 |
40-41 |
|
第4章 信息检索和答案抽取 |
41-52 |
|
4.1 信息检索概述 |
41-42 |
|
4.2 信息检索模型 |
42-44 |
|
4.2.1 传统信息检索模型 |
42-43 |
|
4.2.2 新型信息检索模型 |
43-44 |
|
4.3 答案抽取概述 |
44-45 |
|
4.4 答案抽取系统的体系结构 |
45-48 |
|
4.4.1 以句子作为答案 |
45-46 |
|
4.4.2 以词或短语作为答案 |
46 |
|
4.4.3 以文摘作为答案 |
46-48 |
|
4.5 答案抽取的关键技术 |
48-52 |
|
4.5.1 命名实体识别 |
48-49 |
|
4.5.2 句法分析 |
49 |
|
4.5.3 篇章分析与推理 |
49-50 |
|
4.5.4 知识获取 |
50-52 |
|
第5章 常用问题库及系统试验 |
52-65 |
|
5.1 候选问题集的查找 |
53-54 |
|
5.2 句子相似度计算 |
54-56 |
|
5.2.1 基于向量空间模型的TFIDF 方法 |
55 |
|
5.2.2 基于语义的相似度计算方法 |
55-56 |
|
5.3 基于语义的相似度计算方法 |
56-58 |
|
5.3.1 语义知识资源 |
56-57 |
|
5.3.2 词与词之间语义相似度的计算 |
57 |
|
5.3.3 句子之间语义相似度的计算 |
57-58 |
|
5.4 FAQ 库更新 |
58 |
|
5.5 FAQ 库试验结果 |
58-59 |
|
5.6 系统试验及讨论 |
59-65 |
|
5.6.1 实验 |
60-63 |
|
5.6.2 实验结果分析 |
63-64 |
|
5.6.3 本课题目前取得的研究成果和今后的研究方向 |
64-65 |
|
第6章 总结和展望 |
65-67 |
|
参考文献 |
67-70 |
|
附录1 攻读硕士期间所发表的论文 |
70-71 |
|
附录2 术语列表 |
71-73 |
|
图表索引 |
73-74 |
|
致谢 |
74 |
|
| 【DOI】 | LunWen.ID:2.2008.389032 |