|
| 【中文题名】 | 中文信息抽取中的若干问题研究 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英文题名】 | Research of Some Problems in Chinese Information Extraction | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【学科专业】 | 计算机软件与理论 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文级别】 | 硕士论文 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【投稿时间】 | 2007-8-7 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【中关键词】 | 中文信息抽取,自动分词,隐马尔科夫模型,中文命名实体,最大熵模型,中文组块 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【英关键词】 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文摘要】 | 本文对中文信息抽取的三个方面进行了研究。 本文提出了一种效率较高的中文分词机制,在基于词典形成有向无环词图后加入基于碎片合并的未登录词的推测算法,使词图的节点减少,从而提高基于N-最短路径算法的分词速度,同时提出了基于零孤立点原则的消歧算法,实验表明,该算法能在保证准确率的条件下提高中文分词速度。 本文使用最大熵模型实现中文命名实体识别,通过特征选取、参数估计、解码三步实现了该系统,并对简单特征和复杂特征进行了比较,实验表明,基于最大熵进行中文命名实体识别是可行的,并且利用复杂特征模板达到最好效果。 本文选择条件随机域作为中文组块分析的模型,采用北大公开的中文树库语料,选用了单一特征、复合特征、状态转移特征,分别利用1阶、1阶+、2阶模型对中文组块进行标注,实验表明,利用2阶条件随机域模型进行中文组块分析达到最好效果。 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【论文题纲】 |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 【DOI】 | LunWen.ID:2.2008.368360 |
| 付费论文:有参考文献 300元 | |
| 1、注册会员 2、购买本文 3、下载文章 | |
| 注:此文为收费论文,需付费购买。每页大约1000字。 |
|