中文自动分词若干技术的研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机应用 >> 正文
中文自动分词若干技术的研究
Form: 论文之家 作者:柴宝杰 Publish: 2007-7-30 Hits:-
【中文题名】 中文自动分词若干技术的研究
【英文题名】 Study of Several Technology of Chinese Word Automatic Segmentation
【学科专业】 计算机软件与理论
【论文级别】 硕士论文
【投稿时间】 2007-7-30
【中关键词】 自动分词,词典机制,PATRICIA,Tree,歧义切分,姓名识别
【英关键词】 Automatic Word Segmentation,Dictionary Mechanism,PATRICIA Tree,Ambiguous Word Segmentation,Name Identification,Organization Name Identification,Placename Identification,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理
【论文摘要】  近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛。由于中文文本是按句连写的,词间无间隙,因而中文信息处理的首要问题是词的切分问题。中文文本自动分词已成为中文信息处理的一个前沿课题。 本课题对中文自动分词方法、歧义字段的计算机自动识别、命名实体的计算机自动识别、中文自动分词词典机制等技术进行了分析和研究。针对某些技术上的不足,提出了改进方案。本论文的主要工作有: (1)歧义字段的计算机自动识别对歧义字段产生的原因进行了研究,给出了交集型歧义字段和组合型歧义字段的计算机自动识别方法。 (2)命名实体的计算机自动识别分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别方法;对中文地名的计算机自动识别给出了利用知识库和规则库,采用推理机制进行计算机自动识别的方法;对机构名称的计算机自动识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。 (3)中文自动分词词典机制介绍了三种典型的中文自动分词词典机制:整词二分、TRIE索引树及逐字二分的词典机制;对基于PATRICIA Tree的...
【论文题纲】
摘要 5-6
Abstract 6-10
第1章 绪论 10-18
1.1 引言及研究的意义 10-11
1.2 研究背景及现状 11-12
1.3 已实现的中文自动分词系统 12-14
1.3.1 几个国内大学研究的分词系统 12-14
1.3.2 Microsoft Research 汉语句法分析器中的自动分词 14
1.4 汉语自动分词的困难 14-16
1.4.1 分词规范的难点─分词单位的确认 15
1.4.2 分词算法中的困难 15-16
1.5 本文的研究内容和组织结构 16-18
1.5.1 研究内容 16
1.5.2 本文组织结构 16-18
第2章 中文自动分词方法 18-29
2.1 机械分词方法 18-24
2.1.1 机械分词方法的分类 18-19
2.1.2 基本的机械分词方法 19-21
2.1.3 其它的机械分词方法 21-24
2.2 理解性分词方法 24-25
2.2.1 专家系统方法 24
2.2.2 神经元网络方法 24-25
2.3 自动分词模型 25-28
2.3.1 自动分词系统的理论模型 25-27
2.3.2 自动分词系统的评价准则 27-28
2.4 本章小结 28-29
第3章 歧义字段计算机自动识别技术的研究 29-37
3.1 歧义字段的基本概念 29-31
3.2 歧义字段的形成原因 31-32
3.2.1 中文文本书写格式 31
3.2.2 汉语语素的构词能力 31-32
3.2.3 汉语词的同形词问题 32
3.2.4 汉语词类的多功能性 32
3.2.5 地名的大量存在增加了歧义字段的数量 32
3.3 计算机自动识别歧义字段的方法 32-36
3.3.1 识别交集型歧义字段的方法 32-34
3.3.2 识别组合型歧义字段的方法 34-36
3.4 本章小结 36-37
第4章 命名实体计算机自动识别技术的研究 37-55
4.1 中文姓名的计算机自动识别技术 37-43
4.1.1 中文姓名的特点 37-41
4.1.2 计算机自动识别中文姓名的方法 41-43
4.2 中文地名的计算机自动识别技术 43-49
4.2.1 中文地名资源 43-44
4.2.2 地名资源知识库的构造 44-46
4.2.3 地名识别规则库的构造 46-47
4.2.4 计算机对地名识别的基本推理机制 47-49
4.3 中文机构名称的计算机自动识别技术 49-54
4.3.1 机构名称的语法性质 49-50
4.3.2 机构名称的语义特性 50-51
4.3.3 机构名称的组织规律 51-52
4.3.4 机构名称的识别规则 52-54
4.4 本章小结 54-55
第5章 中文自动分词词典机制的研究 55-74
5.1 三种基本的查询方式 55-56
5.2 典型的中文自动分词词典机制 56-61
5.2.1 基于整词二分的分词词典机制 56-57
5.2.2 基于TRIE 索引树的分词词典机制 57-59
5.2.3 基于逐字二分的分词词典机制 59-61
5.2.4 三种典型分词词典机制的比较 61
5.3 基于PATRICIA Tree 的中文自动分词词典机制 61-73
5.3.1 基于PATRICIA Tree 的中文自动分词词典机制 61-64
5.3.2 PATRICIA Tree 的性质 64-65
5.3.3 首字哈希-PATRICIA Tree 机制 65-67
5.3.4 首字哈希-词尾PATRICIA Tree 机制 67-73
5.4 本章小结 73-74
结论 74-76
参考文献 76-80
攻读硕士学位期间承担的科研任务与主要成果 80-81
致谢 81-82
作者简介 82
【DOI】 LunWen.ID:2.2008.367940
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:自动分词 论文 词典机制 PATRICIA Tree 歧义切分 姓名识别
计算机应用最新论文
计算机应用热门论文