基于知网语义相关度计算的汉语自动分词方法的研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机应用 >> 正文
基于知网语义相关度计算的汉语自动分词方法的研究
Form: 论文之家 作者:王广正 Publish: 2006-11-2 Hits:-
【中文题名】 基于知网语义相关度计算的汉语自动分词方法的研究
【英文题名】 The Research of Chinese Automatic Segmentation Method Based on HowNet Semantic Relevancy Computing
【学科专业】 计算机软件与理论
【论文级别】 硕士论文
【投稿时间】 2006-11-2
【中关键词】 汉语自动分词,语义相关度,词性标注,知网,,
【英关键词】 Chinese Automatic Word Segmentation,semantic relevancy,part of speech tagging,Hownet,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理
【论文摘要】 汉语自动分词方法一直是中文信息处理乃至人工智能领域的重要研究内容。其中歧义消解作为该领域最重要也是最困难的两个研究重点之一,已经在国内外取得了重大进展,并且也提出了许多有效的分词方法。但是对于歧义字段的处理精度方面还存在不小差距,并且也遇到了不少困难。 作者对汉语自动分词技术、方法和分词系统的实现技术进行了较深入的研究,提出了基于知网的语义相关度计算的歧义字段处理分词模型,并对各链长的歧义字段进行了处理,根据以上研究,设计了WGZ分词系统,并对所设计的系统进行了测试,在所提出的计算语义相关度方法、分词和标注方法都与其它方法做了全面的比较。实验证实,本系统若以句子为单位,本文提出的分词模型的分词正确率为:97.1%;若以词为单位,则为:99.4%,标注正确率为:91.4%。 作者在研究中发现,歧义消解并不只是词的问题,而是与其上下文,包括相邻词、句子段落甚至篇章都有直接或间接的关系。作者在系统的设计与实现时,也充分考虑到了这些因素,并在知网的基础上提出了词语的语义相关度计算模型,并对各链长的歧义字段进行了处理。在进行词性标注时,作者分析了前人的基于规则的词性标注的工作,并提出了基...
【论文题纲】
1.基于知网语义相关度计算的汉语自动分词方法的研究 8-42
第一章 引言 8-11
1.1 研究背景 8
1.2 汉语自动分词的发展 8-9
1.3 目前存在的问题 9
1.4 本文的工作 9-11
第二章 预切分和歧义字段的检测 11-16
2.1 机械分词方法 11-12
2.2 歧义字段分类与产生的原因 12-13
2.3 歧义字段的检测 13-16
第三章 基于知网语义相关度计算的分词模型 16-28
3.1 基于规则的消歧方法 16-17
3.2 基于知网语义相关度消歧的方法 17-25
3.2.1 知网简介 17-20
3.2.2 基于知网的语义相似度和相关度的计算 20-25
3.2.3 各链长歧义字段的切分方法 25
3.3 模型的流程与知识库 25-28
3.3.1 模型流程图 25-26
3.3.2 模型的知识库描述 26-28
第四章 词性标注 28-32
4.1 词性搭配规则 28-29
4.2 对规则优先级的考虑 29-30
4.3 词性标注算法描述 30-32
第五章 实验结果与评价 32-37
5.1 实验环境和数据来源 32
5.2 实验结果 32-35
5.3 分词正确率 35-36
5.4 标注正确率 36-37
第六章 结论与展望 37-39
6.1 本文的总结 37
6.2 分词方法的展望 37-39
参考文献 39-42
2.汉语自动分词方法的研究 42-88
第一章 汉语自动分词概述 46-49
1.1 引言 46
1.2 汉语自动分词的背景与现状 46-47
1.3 汉语自动分词的困难 47-49
第二章 汉语自动分词方法 49-61
2.1 汉语自动分词方法与技术 49-58
2.1.1 机械分词方法的分类 49-50
2.1.2 基本的机械分词方法 50-51
2.1.3 其它的机械分词方法 51-53
2.1.4 非机械分词方法 53-58
2.2 几种典型的自动分词系统及其评价 58-61
第三章 歧义分析与歧义发现 61-65
3.1 歧义字段产生的根源 61-62
3.2 歧义字段的类型 62-64
3.3 歧义字段的识别 64-65
第四章 歧义字段的处理 65-75
4.1 交集型歧义字段的处理 65-70
4.1.1 交集型歧义字段的统计分析 65-66
4.1.2 交集型歧义字段的切分方法 66-70
4.2 组合型歧义字段的处理 70-71
4.3 混合型歧义字段的处理 71-72
4.4 未登录词的处理 72-75
第五章 词性标注 75-79
5.1 词性标注的研究现状 75
5.2 词性标注的方法 75-79
5.2.1 基于规则的词性标注的方法 75-76
5.2.2 基于统计的词性标注的方法 76-77
5.2.3 规则和统计相结合的词性标注方法 77-79
第六章 汉语自动分词方法的评价 79-80
参考文献 80-88
3. The Research of Chinese Automatic Segmentation method Based on HowNet Semantic Relevancy Computing 88-130
Chapter 1 Introduction 94-98
1.1 Background of Research 94
1.2 The Development of Chinese Automatic Word Segmentation 94-96
1.3 Problem Unsolved 96-97
1.4 Our Work 97-98
Chapter 2 Segmenting and Word Ambiguity Detecting 98-104
2.1 Mechanical segmenting method 98-100
2.2 The Classification of Ambiguity and the Causation of it bring 100-101
2.3 Ambiguity Detecting 101-104
Chapter 3 Segmenting Model Based on Hownet Semantic Relevancy Computing 104-118
3.1 Disambiguating Methods based on Rule 104-105
3.2 Disambiguating Method Based on Hownet Semantic Relevancy Computing 105-116
3.2.1 Brief Introduction of Hownet 106-109
3.2.2 Semantic Similarity and Relevancy computing Based on Hownet 109-115
3.2.3 The Segmenting Method of Ambiguity with Every Chain Length 115-116
3.3 The Flow Chart or our Model and Knowledge Bade 116-118
3.3.1 The Flow Chart of our Model 116-117
3.3.2 Description of Knowledge Base of the Model 117-118
Chapter 4 Part of Speech Tagging 118-122
4.1 The Collocation Rules 118-119
4.2 Consideration to PRI of Rule 119-120
4.3 Algorithm Description of Part of Speech Tagging 120-122
Chapter 5 Experiment Result and Appraisement 122-128
5.1 Testing environment and source of testing data 122
5.2 The Experiment Result 122-126
5.3 The Precision of Segmentation 126
5.4 The Precision of Tagging 126-128
Chapter 6 Conclusion and Expectation 128-130
6.1 Conclusion of our work 128
6.2 The expectation to segmenting methods 128-130
4. The Research of Chinese Automatic Segmentation methods 130-184
Chapter 1 The Introduction of Chinese Automatic Segmenting 134-137
1.1 Introduction 134
1.2 the Background and Actuality of Chinese Automatic Segmenting 134-135
1.3 the Difficulty of Chinese Automatic Segmenting 135-137
Chapter 2 The Methods of Chinese Automatic Segmenting 137-159
2.1 the Methods and Technique of Chinese Automatic Segmenting 137-153
2.1.1 the Classification of Mechanical Matching Methods 137-138
2.1.2 the Basic Mechanical Segmenting Methods 138-140
2.1.3 Other Mechanical Segmenting Methods 140-145
2.1.4 Non-mechanical Segmenting Methods 145-153
2.2 Several Typical Automatic Systems and Their Appraisement 153-159
Chapter 3 Ambiguity Detecting and Analyzing 159-165
3.1 the Reason of Coming into Being of Ambiguity 160
3.2 Types of Ambiguity 160-163
3.3 the Reorganization of Ambiguity 163-165
Chapter 4 The Dealing with Ambiguity 165-178
4.1 the Dealing with Crossing Ambiguity 165-171
4.1.1 the Statistic and Analysis to Crossing Ambiguity 165-166
4.1.2 the Segmenting Method of Crossing Ambiguity 166-171
4.2 the Dealing with Combinational Ambiguities 171-172
4.3 the Dealing with Mixed Ambiguities 172-174
4.4 the Dealing with Unknown Words 174-178
Chapter 5 Part of Speech Tagging 178-183
5.1 the Research Actuality of Part of Speech Tagging 178-179
5.2 the Methods of Part of Speech Tagging 179-183
5.2.1 the Part of Speech Tagging Method Based on Rule 179-180
5.2.2 the Part of Speech of Tagging Based on Statistic 180-182
5.2.3 the Part of Speech of Tagging Combining Rule and Statistic 182-183
Chapter 6 The Appraisal to Chinese Automatic Segmenting Methods 183-184
致谢 184
【DOI】 LunWen.ID:2.2008.364960
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:汉语自动分词 论文 语义相关度 词性标注 知网
计算机应用最新论文
计算机应用热门论文