中文信息抽取中的若干问题研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机应用 >> 正文
中文信息抽取中的若干问题研究
作者:徐中一 Publish: 2007-8-7 Hits:-
【中文题名】 中文信息抽取中的若干问题研究
【英文题名】 Research of Some Problems in Chinese Information Extraction
【学科专业】 计算机软件与理论
【论文级别】 硕士论文
【投稿时间】 2007-8-7
【中关键词】 中文信息抽取,自动分词,隐马尔科夫模型,中文命名实体,最大熵模型,中文组块
【英关键词】 
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理
【论文摘要】  本文对中文信息抽取的三个方面进行了研究。 本文提出了一种效率较高的中文分词机制,在基于词典形成有向无环词图后加入基于碎片合并的未登录词的推测算法,使词图的节点减少,从而提高基于N-最短路径算法的分词速度,同时提出了基于零孤立点原则的消歧算法,实验表明,该算法能在保证准确率的条件下提高中文分词速度。 本文使用最大熵模型实现中文命名实体识别,通过特征选取、参数估计、解码三步实现了该系统,并对简单特征和复杂特征进行了比较,实验表明,基于最大熵进行中文命名实体识别是可行的,并且利用复杂特征模板达到最好效果。 本文选择条件随机域作为中文组块分析的模型,采用北大公开的中文树库语料,选用了单一特征、复合特征、状态转移特征,分别利用1阶、1阶+、2阶模型对中文组块进行标注,实验表明,利用2阶条件随机域模型进行中文组块分析达到最好效果。
【论文题纲】
内容提要 4-7
第一章 绪论 7-14
1.1 信息抽取的含义 7-8
1.2 信息抽取和信息检索 8
1.3 中文信息抽取的特殊性 8-9
1.4 信息抽取的历史和现状 9-12
1.5 本文的主要研究内容和组织结构 12-14
第二章 基于数学统计的语言模型 14-25
2.1 统计语言模型概述 14-15
2.2 隐马尔科夫模型 15-17
2.3 最大熵模型 17-21
2.3.1 最大熵简单实例介绍 18-19
2.3.2 最大熵模型框架概述 19-21
2.4 最大熵马尔科夫模型 21-22
2.5 条件随机域 22-23
2.6 四种模型对比 23-25
第三章 中文自动分词 25-34
3.1 引言 25
3.2 中文自动分词的难点 25-26
3.3 词典查询算法和数据结构的改进 26-29
3.3.1 词典查询算法的现状 26-27
3.3.2 分词词典机制 27-29
3.4 中文自动分词算法的改进 29-33
3.4.1 基于碎片合并的未登录词的推测算法 29-31
3.4.2 N-最短路径词语粗分算法简介 31
3.4.3 基于零孤立点原则的消歧算法 31-33
3.4.4 中文自动分词步骤 33
3.5 实验结果及分析 33-34
第四章 基于最大熵模型的中文命名实体识别 34-42
4.1 引言 34-35
4.2 中文命名实体识别的任务 35-36
4.3 基于最大熵模型的中文命名实体识别 36-40
4.3.1 特征选取 37-39
4.3.2 参数估计 39
4.3.3 解码算法 39-40
4.4 实验结果及分析 40-42
第五章 基于CRF 的中文组块分析 42-48
5.1 引言 42
5.2 中文组块 42-43
5.3 基于CRF的中文组块分析 43-45
5.4 实验结果及分析 45-48
第六章 总结 48-50
参考文献 50-53
攻读学位期间发表的学术论文 53-54
摘要 54-57
ABSTRACT 57-60
致谢 60-61
导师及作者简介 61
【DOI】 LunWen.ID:2.2008.368360
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:中文信息抽取 论文 自动分词 隐马尔科夫模型 中文命名实体 最大熵模型 中文组块
计算机应用最新论文
计算机应用热门论文