| 【中文题名】 | 基于统计机器学习算法的汉语分词系统的研究 |
| 【英文题名】 | A Statistics-Based Language Model Approach to Chinese Word Segmentation |
| 【学科专业】 | 信号与信息处理 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2006-9-27 |
| 【中关键词】 | 统计语言模型,汉语自动分词,中文命名实体识别,基于词的三元语言模型,基于类的语言模型, |
| 【英关键词】 | SLM,Chinese Word Segmentation,Chinese named entity recognition,Word-based trigram language model,Class-based language model, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 | 在词汇级的中文语言处理中,存在两个基本的问题:其一是汉语自动分词,其二是中文命名实体识别。通常的系统都把这两个任务分开处理,也就是不同任务使用不同的处理策略或两个任务按时间顺序先后被处理。我们认为这两个问题从本质上说并不是独立的,完全可以在一个系统里同时将其解决。在本文中,我们提出了一个统一的方法来实现汉语自动分词和中文命名实体识别。
统计语言模型已经成功地应用到很多的领域,例如语音识别领域、信息抽取领域和口语理解领域。特别是三元语言模型在这些领域已被证实是相当有效的。在本文中,我们提出了一种统一的统计语言模型方法用来汉语自动分词和中文命名实体识别,这种方法对基于词的三元语言模型进行了很好的扩展。
本文旨在使用一个统一的方法解决两个基本的自然语言处理问题:其一是汉语自动分词,其二是中文命名实体识别。我们提出了一种基于类的语言模型的方法,这种方法对于类的定义主要集中在六类:中国人名和外国人名,中国地名和外国地名,中国组织机构名和外国组织机构名。基于类的语言模型包括两个独立的子模型:(1)一系列的命名实体语言模型,每个命名实体语言模型估计在给定类的情况下字符串的生成概率;(2)语境... |
| 【论文题纲】 |
|
第一章 绪论 |
8-15 |
|
1.1 本文研究的背景及意义 |
8-9 |
|
1.2 国内外研究现状 |
9-13 |
|
1.2.1 汉语自动分词的研究现状 |
9-11 |
|
1.2.2 汉语自动分词的难点 |
11-13 |
|
1.3 本文的主要研究内容 |
13-14 |
|
1.3.1 模型训练 |
13 |
|
1.3.2 基于类的语言模型的汉语自动分词 |
13-14 |
|
1.4 本文的研究成果 |
14-15 |
|
第二章 研究平台的建立及描述 |
15-19 |
|
2.1 研究平台的建立 |
15-16 |
|
2.2 SRILM概述 |
16-19 |
|
第三章 汉语自动分词 |
19-34 |
|
3.1 汉语自动分词概述 |
19-22 |
|
3.1.1 汉语自动分词的现实性和可行性 |
19-20 |
|
3.1.2 汉语自动分词的性能评价 |
20-22 |
|
3.2 统计语言模型 |
22-30 |
|
3.2.1 N-gram模型 |
22-25 |
|
3.2.2 HMM(Hidden Markov Model)模型 |
25-26 |
|
3.2.3 参数估计与数据稀疏问题 |
26-30 |
|
3.3 汉语自动分词基本算法 |
30-34 |
|
3.3.1 基于词典的分词算法 |
30-31 |
|
3.3.2 基于统计的分词算法 |
31-32 |
|
3.3.3 混合的分词方法 |
32-34 |
|
第四章 基于类的语言模型的汉语自动分词系统 |
34-44 |
|
4.1 类的定义 |
34-35 |
|
4.2 基于类的语言模型的形式化描述 |
35-40 |
|
4.3 基于类的汉语自动分词系统的架构 |
40-44 |
|
4.3.1 基于类的模型估计模块 |
40-42 |
|
4.3.2 基于类的解码模块 |
42-44 |
|
第五章 实验结果和分析 |
44-56 |
|
5.1 测试指标 |
44-45 |
|
5.2 数据集 |
45-46 |
|
5.2.1 测试数据 |
45 |
|
5.2.2 训练数据 |
45-46 |
|
5.3 实验 |
46-51 |
|
5.3.1 实验一:基于前向最大匹配的汉语自动分词 |
46-47 |
|
5.3.2 实验二:基于词的3元模型的汉语自动分词 |
47-48 |
|
5.3.3 实验三:基于类的语言模型的汉语自动分词 |
48-50 |
|
5.3.4 在MET2的测试集上的结果 |
50-51 |
|
5.4 分析与讨论 |
51-56 |
|
5.4.1 类别错误 |
52-53 |
|
5.4.2 边界错误 |
53-55 |
|
5.4.3 歧义切分字段错误 |
55-56 |
|
第六章 结论与展望 |
56-58 |
|
参考文献 |
58-61 |
|
致谢 |
61 |
|
| 【DOI】 | LunWen.ID:2.2008.387962 |