| 【中文题名】 | 基于统计的机器学习的中文命名实体识别 |
| 【英文题名】 | Chinese Named Entity Recognition Based Statistical Machine Learning |
| 【学科专业】 | 控制理论与控制工程 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2004-9-8 |
| 【中关键词】 | 命名实体识别,统计,机器学习,规则,文本预处理, |
| 【英关键词】 | named entity recognition,statistics,machine learning,rules,text pre-process., |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>专家系统、知识工程> |
| 【论文摘要】 | 计算语言学所研究的命名实体是指句子中有确定含义的名词。由于命名实体
包含了文本中重要的信息,命名实体识别是信息抽取研究中最有意义的研究内容
之一。另外,文本中频繁出现的命名实体,也是制约分词精度提高的最主要原
因。其识别的好坏将直接影响分词精度以及其后的词性标注和句法分析的精度,
命名实体的自动识别也是汉语分词的关键问题和热点问题。因此研究命名实体自
动识别具有重要的理论意义和实际意义。
在汉语文本处理中通常关注的命名实体可以分为7个类别:“人名”,“地
名”,“机构名”,“日期”,“时间”,“货币”,“百分比”。 目前命名实体识别主要
使用两种方法:基于统计的方法和基于规则的方法。前者利用统计的方法从真实
的文本自动抽取命名实体的构成规律,通过训练的语言模型自动识别命名实体:
后者主要利用语言学家的理性知识,通过语言学家书写的规则识别命名实体。本
文运用统计与规则相结合的方法,一方面利用了较大规模的语料库来训练,统计
命名实体的用字用词规律。另一方面,从已经标注的语料库中提取了大量用于识
别的规则,最终成功的实现了这些命名实体的识别,识别的精度比单纯基于统... |
| 【论文题纲】 |
|
摘要 |
4-6 |
|
Abstract |
6-11 |
|
第1章 绪论 |
11-17 |
|
1.1 课题的来源及研究的目的及意义 |
11 |
|
1.2 国内外在该方向的研究现状及分析 |
11-15 |
|
1.2.1 中国人名的识别 |
12-13 |
|
1.2.2 中国地名的识别 |
13-14 |
|
1.2.3 外国译名的识别 |
14 |
|
1.2.4 机构名的识别 |
14-15 |
|
1.3 本文主要工作 |
15-17 |
|
第2章 汉字编码转换 |
17-25 |
|
2.1 引言 |
17 |
|
2.2 汉字编码转换 |
17-23 |
|
2.2.1 主要编码体系介绍 |
17-21 |
|
2.2.2 汉字编码转换实现 |
21-23 |
|
2.3 本章小结 |
23-25 |
|
第3章 非汉字符号和中英文数词识别 |
25-31 |
|
3.1 引言 |
25 |
|
3.2 预处理中阿拉伯数词的识别 |
25-29 |
|
3.2.1 格式统一处理 |
26-27 |
|
3.2.2 结构的归整 |
27-29 |
|
3.3 中文数词的识别 |
29-30 |
|
3.4 本章小结 |
30-31 |
|
第4章 基于统计的人名地名的识别 |
31-45 |
|
4.1 引言 |
31 |
|
4.2 汉语分词词性标注流程 |
31-33 |
|
4.3 人名地名译名的识别 |
33-42 |
|
4.3.1 各类未登录的统计信息 |
33-36 |
|
4.3.2 寻找候选的命名实体 |
36-39 |
|
4.3.3 规则的组织 |
39-40 |
|
4.3.4 动态规划 |
40-41 |
|
4.3.5 后处理 |
41-42 |
|
4.4 实验结果及分析 |
42-43 |
|
4.5 本章小结 |
43-45 |
|
第5章 基于决策树的命名实体的识别 |
45-53 |
|
5.1 引言 |
45 |
|
5.2 决策树模型简介 |
45-48 |
|
5.2.1 决策树的概念 |
45-46 |
|
5.2.2 构造决策树 |
46-48 |
|
5.3 用决策树方法进行命名实体识别 |
48-51 |
|
5.3.1 模型的定义 |
48-49 |
|
5.3.2 结构模板的建立 |
49-50 |
|
5.3.3 应用决策树的方法引入上下文 |
50-51 |
|
5.4 实验结果与分析 |
51-52 |
|
5.5 本章小结 |
52-53 |
|
第6章 基于模板匹配的机构名识别 |
53-63 |
|
6.1 引言 |
53-54 |
|
6.2 机构名的组成分析 |
54-57 |
|
6.2.1 简单类型机构名全称的内部组成 |
54-56 |
|
6.2.2 复合型机构名 |
56-57 |
|
6.3 机构名的识别 |
57-60 |
|
6.3.1 机构名识别模板 |
57 |
|
6.3.2 机构名各组成部分的识别 |
57-58 |
|
6.3.3 机构名的识别流程 |
58-60 |
|
6.3.4 机构名的边界条件 |
60 |
|
6.4 实验结果及分析 |
60-61 |
|
6.5 本章小结 |
61-63 |
|
第7章 应用软件系统开发 |
63-71 |
|
7.1 引言 |
63 |
|
7.2 分词词性标注系统CEMT2K |
63-65 |
|
7.2.1 系统主要功能介绍 |
63 |
|
7.2.2 运行菜单及其结果 |
63-65 |
|
7.3 汉英翻译系统MTS2K |
65-69 |
|
7.3.1 系统主要功能介绍 |
67 |
|
7.3.2 翻译菜单以及结果 |
67-69 |
|
7.4 本章小结 |
69-71 |
|
第8章 研究结论 |
71-73 |
|
致谢 |
73-74 |
|
参考文献 |
74-78 |
|
附录A: 攻读学位期间发表的学术论文 |
78-79 |
|
附录B: 汉语词性标注集 |
79-81 |
|
附录C: 标点符号集 |
81 |
|
| 【DOI】 | LunWen.ID:2.2008.387063 |