| 【中文题名】 | 中文自动分词若干技术的研究 |
| 【英文题名】 | Study of Several Technology of Chinese Word Automatic Segmentation |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-7-30 |
| 【中关键词】 | 自动分词,词典机制,PATRICIA,Tree,歧义切分,姓名识别 |
| 【英关键词】 | Automatic Word Segmentation,Dictionary Mechanism,PATRICIA Tree,Ambiguous Word Segmentation,Name Identification,Organization Name Identification,Placename Identification, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理 |
| 【论文摘要】 |
近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛。由于中文文本是按句连写的,词间无间隙,因而中文信息处理的首要问题是词的切分问题。中文文本自动分词已成为中文信息处理的一个前沿课题。
本课题对中文自动分词方法、歧义字段的计算机自动识别、命名实体的计算机自动识别、中文自动分词词典机制等技术进行了分析和研究。针对某些技术上的不足,提出了改进方案。本论文的主要工作有:
(1)歧义字段的计算机自动识别对歧义字段产生的原因进行了研究,给出了交集型歧义字段和组合型歧义字段的计算机自动识别方法。
(2)命名实体的计算机自动识别分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别方法;对中文地名的计算机自动识别给出了利用知识库和规则库,采用推理机制进行计算机自动识别的方法;对机构名称的计算机自动识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。
(3)中文自动分词词典机制介绍了三种典型的中文自动分词词典机制:整词二分、TRIE索引树及逐字二分的词典机制;对基于PATRICIA Tree的... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
Abstract |
6-10 |
|
第1章 绪论 |
10-18 |
|
1.1 引言及研究的意义 |
10-11 |
|
1.2 研究背景及现状 |
11-12 |
|
1.3 已实现的中文自动分词系统 |
12-14 |
|
1.3.1 几个国内大学研究的分词系统 |
12-14 |
|
1.3.2 Microsoft Research 汉语句法分析器中的自动分词 |
14 |
|
1.4 汉语自动分词的困难 |
14-16 |
|
1.4.1 分词规范的难点─分词单位的确认 |
15 |
|
1.4.2 分词算法中的困难 |
15-16 |
|
1.5 本文的研究内容和组织结构 |
16-18 |
|
1.5.1 研究内容 |
16 |
|
1.5.2 本文组织结构 |
16-18 |
|
第2章 中文自动分词方法 |
18-29 |
|
2.1 机械分词方法 |
18-24 |
|
2.1.1 机械分词方法的分类 |
18-19 |
|
2.1.2 基本的机械分词方法 |
19-21 |
|
2.1.3 其它的机械分词方法 |
21-24 |
|
2.2 理解性分词方法 |
24-25 |
|
2.2.1 专家系统方法 |
24 |
|
2.2.2 神经元网络方法 |
24-25 |
|
2.3 自动分词模型 |
25-28 |
|
2.3.1 自动分词系统的理论模型 |
25-27 |
|
2.3.2 自动分词系统的评价准则 |
27-28 |
|
2.4 本章小结 |
28-29 |
|
第3章 歧义字段计算机自动识别技术的研究 |
29-37 |
|
3.1 歧义字段的基本概念 |
29-31 |
|
3.2 歧义字段的形成原因 |
31-32 |
|
3.2.1 中文文本书写格式 |
31 |
|
3.2.2 汉语语素的构词能力 |
31-32 |
|
3.2.3 汉语词的同形词问题 |
32 |
|
3.2.4 汉语词类的多功能性 |
32 |
|
3.2.5 地名的大量存在增加了歧义字段的数量 |
32 |
|
3.3 计算机自动识别歧义字段的方法 |
32-36 |
|
3.3.1 识别交集型歧义字段的方法 |
32-34 |
|
3.3.2 识别组合型歧义字段的方法 |
34-36 |
|
3.4 本章小结 |
36-37 |
|
第4章 命名实体计算机自动识别技术的研究 |
37-55 |
|
4.1 中文姓名的计算机自动识别技术 |
37-43 |
|
4.1.1 中文姓名的特点 |
37-41 |
|
4.1.2 计算机自动识别中文姓名的方法 |
41-43 |
|
4.2 中文地名的计算机自动识别技术 |
43-49 |
|
4.2.1 中文地名资源 |
43-44 |
|
4.2.2 地名资源知识库的构造 |
44-46 |
|
4.2.3 地名识别规则库的构造 |
46-47 |
|
4.2.4 计算机对地名识别的基本推理机制 |
47-49 |
|
4.3 中文机构名称的计算机自动识别技术 |
49-54 |
|
4.3.1 机构名称的语法性质 |
49-50 |
|
4.3.2 机构名称的语义特性 |
50-51 |
|
4.3.3 机构名称的组织规律 |
51-52 |
|
4.3.4 机构名称的识别规则 |
52-54 |
|
4.4 本章小结 |
54-55 |
|
第5章 中文自动分词词典机制的研究 |
55-74 |
|
5.1 三种基本的查询方式 |
55-56 |
|
5.2 典型的中文自动分词词典机制 |
56-61 |
|
5.2.1 基于整词二分的分词词典机制 |
56-57 |
|
5.2.2 基于TRIE 索引树的分词词典机制 |
57-59 |
|
5.2.3 基于逐字二分的分词词典机制 |
59-61 |
|
5.2.4 三种典型分词词典机制的比较 |
61 |
|
5.3 基于PATRICIA Tree 的中文自动分词词典机制 |
61-73 |
|
5.3.1 基于PATRICIA Tree 的中文自动分词词典机制 |
61-64 |
|
5.3.2 PATRICIA Tree 的性质 |
64-65 |
|
5.3.3 首字哈希-PATRICIA Tree 机制 |
65-67 |
|
5.3.4 首字哈希-词尾PATRICIA Tree 机制 |
67-73 |
|
5.4 本章小结 |
73-74 |
|
结论 |
74-76 |
|
参考文献 |
76-80 |
|
攻读硕士学位期间承担的科研任务与主要成果 |
80-81 |
|
致谢 |
81-82 |
|
作者简介 |
82 |
|
| 【DOI】 | LunWen.ID:2.2008.367940 |