基于唐诗语料词的提取与统计分析的研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 计算机应用 >> 正文
基于唐诗语料词的提取与统计分析的研究
作者:刘杰 Publish: 2007-4-3 Hits:-
【中文题名】 基于唐诗语料词的提取与统计分析的研究
【英文题名】 The Research on Extraction and Statistics Analysis of Corpus Words Based on Tang Poem
【学科专业】 软件工程
【论文级别】 硕士论文
【投稿时间】 2007-4-3
【中关键词】 语料库,词的提取,统计分析,,,
【英关键词】 corpus,extraction,statistic analysis,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>文字信息处理
【论文摘要】  本文研究的内容是“基于唐诗语料库的‘词’的提取与统计分析的研究”。本文主要是采用了基于语料库统计的方法,统计作为一种工具可以用来帮助发现语言事例中隐藏的许多语言现象,统计手段的引入,使人们能够有一个相对客观的标准来判定唐诗中“词”的概念,词汇语义之间的相互关系等,基于唐诗三百首的语料库,对诗中的词进行提取,再利用统计的方法,对诗歌中的词汇进行分析。主要是建立一个基于频度、相对共现度以及插入率的多维度未登录词统计发现的模型。该模型针对汉语中多字词被大量使用的特点对传统的互信息模型进行了改进,提高了统计自动提词的查准率和查全率。 本文首先对语料库的发展现状和计算语言学的现状进行了简要的介绍,主要采用了基于语料库的统计方法,优化了信息论中的互信息概念,提出了基于同现度,结合力度和插入机率的三维的词的统计发现模型,该模型针对传统的互信息模型进行了改进,经实验验证,大大提高了唐诗语料词的提取的准确率。对于唐诗语料的划分,采用了唐诗固有的特点与现代汉语分词技术相结合的方法,取得了较高的效率。文中还对唐诗语料的共现词和对仗此进行了统计分析,但是此部分仅仅是起步阶段,希望在今后的工作中能继续深入研究。
【论文题纲】
内容提要 4-8
第一章 引言 8-20
1.1 问题的提出 8-9
1.2 计算语言学 9-10
1.3 汉语语料库的建设 10-13
1.4 已有的研究 13-14
1.4.1 古籍电子化方向的相关研究 13-14
1.4.2 国外语料库语言学的研究 14
1.5 本文的出发点 14-19
1.6 本论文所做的工作 19-20
第二章 唐诗语料数据库及知识库的建立 20-26
2.1 语料库的物理结构 20-21
2.2 物理数据库的选择 21-22
2.3 唐诗相关语言知识库的建立 22
2.4 唐诗语料数据库的建立 22-25
2.5 小结 25-26
第三章 基于唐诗语料“词”的统计提取 26-39
3.1 唐诗中‘词’的界定 26
3.2 典型的词的提取方法 26-27
3.3 基于统计的‘词’的提取方法 27-37
3.3.1 语言研究中的统计学 27-31
3.3.2 关于“互信息”和“共现度”的详细概念 31-36
3.3.3 “结合强度”的提出 36-37
3.4 ‘多维度统计抽词模型’的建立 37-38
3.5 小结 38-39
第四章 唐诗语料词语的切分 39-55
4.1 现代汉语常用的分词方法 39-41
4.1.1 基于字符串匹配的分词方法 39
4.1.2 基于理解的分词方法 39-40
4.1.3 基于统计的分词方法 40-41
4.2 现代汉语分词过程中存在的歧义问题 41-48
4.2.1 现代汉语中分词歧义的种类 41-43
4.2.2 消除歧义的主要技术 43-48
4.3 唐诗语料的词语切分 48-53
4.3.1 运用唐诗特殊文体解决词语的切分 48-52
4.3.2 唐诗语料切分时歧义问题的存在 52-53
4.3.3 在唐诗语料库中消歧问题的解决 53
4.4 小结 53-55
第五章 唐诗语料的词汇统计分析 55-62
5.1 关于词汇的同现词与对偶词的研究 55-57
5.1.1 同现词与对仗词的概念 55-56
5.1.2 唐诗词汇的同现词与对仗词的统计 56-57
5.2 词汇语义特征的研究 57-59
5.2.1 词汇语义特征的统计描述 57-58
5.2.2 词汇语义相似度的计算 58-59
5.3 词汇以及词汇群落的时代变迁分析 59-60
5.4 诗句的风格的相似检索 60
5.5 小结 60-62
结论 62-63
参考文献 63-65
摘要 65-67
Abstract 67-69
致谢 69
【DOI】 LunWen.ID:2.2008.366425
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:语料库 论文 词的提取 统计分析
计算机应用最新论文
计算机应用热门论文