| 【中文题名】 | 具有中文人名识别功能的汉语自动分词算法研究 |
| 【英文题名】 | Study on the Automatic Chinese Word Segmentation with Chinese Names Recognation Function |
| 【学科专业】 | 模式识别与智能系统 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-11-12 |
| 【中关键词】 | 汉语自动分词,中文人名识别,歧义切分,最大匹配,, |
| 【英关键词】 | Chinese automatic word segmentation,Chinese names recognition,ambiguities segmentation,maximum match, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>模式识别与装置 |
| 【论文摘要】 |
随着信息技术的飞速发展,中文信息处理技术已经渗透到计算机应用的各个领域。词处理平台技术是中文信息处理的中间环节,是连接字处理平台和句处理平台的关键环节,其核心难题是分词问题。汉语自动分词是对汉语文本进行自动分析的第一步,是词处理平台的基础,汉语自动分词技术的发展直接影响着中文信息处理技术的发展。
本文对汉语自动分词的知识进行了全面的描述,介绍了汉语自动分词的概念和国内外研究与应用的现状。对汉语自动分词技术的原理、方法、评价标准以及基本流程进行了分析和总结。其中重点对汉语自动分词歧义的采集和处理以及中文人名识别所用到的技术和各种算法进行了深入的研究与实验分析,并提出了一些改进思路。
文中使用逆向最大匹配法和改进的正向最大匹配法相结合的方法对待切分字段进行双向扫描来采集歧义字段;并在歧义处理过程中做出一些改进,采用规则和统计相结合的方法,运用一些歧义切分的规则及最大概率分词法消解歧义字段;同时采用了统计和规则相结合的方法对未登录词中的人名识别进行了实验,实现了具有人名识别功能的中文分词算法。通过实验数据可以看到,本算法基本可以满足中文信息处理中的实际应用问题。 |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
ABSTRACT |
4-7 |
|
第一章 绪论 |
7-12 |
|
§1-1 研究意义 |
7 |
|
§1-2 研究背景 |
7-8 |
|
§1-3 中文分词的特点 |
8-9 |
|
§1-4 分词的主要应用领域 |
9-10 |
|
§1-5 全文布局 |
10-12 |
|
第二章 中文分词技术现状 |
12-21 |
|
§2-1 汉语自动分词的难点 |
12-13 |
|
§2-2 中文人名识别的难点 |
13 |
|
§2-3 已有的中文分词方法 |
13-16 |
|
§2-4 已有的人名识别方法 |
16-17 |
|
§2-5 现有中文分词系统 |
17-19 |
|
§2-6 汉语自动分词的评测指标 |
19-21 |
|
第三章 歧义处理及人名识别 |
21-36 |
|
§3-1 本文要解决的问题 |
21-23 |
|
3-1-1 歧义字段切分问题 |
21-23 |
|
3-1-2 人名识别问题 |
23 |
|
§3-2 本文使用的主要方法 |
23-26 |
|
3-2-1 双向最大匹配法 |
23-24 |
|
3-2-2 改进后的双向最大匹配法 |
24-25 |
|
3-2-3 最大概率法 |
25-26 |
|
§3-3 歧义字段的采集及解决 |
26-32 |
|
3-3-1 歧义字段的采集 |
26-27 |
|
3-3-2 歧义字段的解决 |
27-32 |
|
§3-4 人名识别的实现 |
32-36 |
|
3-4-1 姓氏人名用字分析 |
32-34 |
|
3-4-2 姓名自动识别的基本步骤 |
34-35 |
|
3-4-3 本文姓名识别的基本步骤和方法 |
35-36 |
|
第四章 分词算法实现 |
36-44 |
|
§4-1 算法整体实现流程 |
36-37 |
|
§4-2 具体算法实现及流程 |
37-44 |
|
4-2-1 预处理过程 |
37 |
|
4-2-2 歧义采集过程主要算法及流程 |
37-38 |
|
4-2-3 歧义处理过程主要算法及流程 |
38-42 |
|
4-2-4 人名识别过程主要算法及流程 |
42-44 |
|
第五章 实验结果及分析 |
44-51 |
|
§5-1 实验结果及分析 |
44-45 |
|
§5-2 分词结果示例及分析 |
45-51 |
|
5-2-1 歧义采集结果示例及分析 |
45-47 |
|
5-2-2 人名识别结果示例及分析 |
47-48 |
|
5-2-3 本算法分词结果示例及分析 |
48-51 |
|
第六章 结论和展望 |
51-52 |
|
§6-1 本文结论 |
51 |
|
§6-2 展望 |
51-52 |
|
参考文献 |
52-54 |
|
致谢 |
54 |
|
| 【DOI】 | LunWen.ID:2.2008.370628 |