| 【中文题名】 | 自然语言处理在药物专利检索系统中的应用 |
| 【英文题名】 | |
| 【学科专业】 | 应用化学 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2004-7-7 |
| 【中关键词】 | 自然语言处理,机器翻译,汉语自动分词,最大匹配算法,, |
| 【英关键词】 | Natural language processing,Machine Translation,Chinese automatic words segmentation,Maximum Matching Method, |
| 【分类导航】 | 工业技术>化学工业>制药化学工业>一般性问题>> |
| 【论文摘要】 | 随着计算机应用的日益普遍,人工智能的迅猛发展,计算机在化学领域的应用也愈来愈受到普遍的关注。特别是在有机化学人工智能方面,出现了日益繁多的有关物质分子结构信息处理的专家系统。物质分子结构的计算机处理,需要一种化学家和计算机都能接受的表达形式来表示分子结构,且要求一种分子只能有唯一的一种结构代码表示。在药物专利中,族性结构是通过结构图形与可变部分的文本描述相结合来表达的,计算机本身无法识别自然语言文字。因此,将专利摘要中的文本部分自动的转化为分子结构代码,对于计算机结构信息检索和匹配具有重要的意义。
本论文采用自然语言处理技术(Natural Language Processing),将药物专利摘要中对族性结构的可变部分进行描述的文本部分,半自动的翻译成规范的、唯一的、能够被计算机识别的代码。并结合输入到计算机中的专利结构图形,生成一个描述族性结构的紧缩拓扑关联表(GSCCT表),以便进行药物专利的结构匹配检索。机器翻译系统基于面向对象技术(OOT),通过句法、语法分析,建立语言模型。并结合机器翻译的需要,提出了新的汉语自动分词算法(MM),使词典库结构简化,极大的提高了机器翻译的准确性和速度。同时... |
| 【论文题纲】 |
|
0 前言 |
7-8 |
|
1 文献综述一 |
8-19 |
|
1.1 概述 |
8-9 |
|
1.2 专利族性结构信息处理国内外发展状况 |
9-15 |
|
1.2.1 历史回顾 |
9-11 |
|
1.2.2 国外近期工作 |
11-12 |
|
1.2.3 国内工作 |
12-15 |
|
参考文献 |
15-19 |
|
2 文献综述二 |
19-35 |
|
2.1 自然语言处理 |
19-29 |
|
2.1.1 概述 |
19-20 |
|
2.1.2 自然语言处理研究的历史 |
20-22 |
|
2.1.3 NLP的三种理论与方法 |
22-26 |
|
2.1.4 NLP的实现技术 |
26-29 |
|
2.2 自然语言处理在有机化合物结构分析中的应用 |
29-31 |
|
2.3 论文意义及主要工作 |
31-33 |
|
参考文献 |
33-35 |
|
3 药物专利检索系统的总体设计与分析 |
35-39 |
|
3.1 设计思想 |
35-37 |
|
3.2 药物专利检索系统分析 |
37-39 |
|
4 翻译器设计方法研究 |
39-72 |
|
4.1 综述 |
39-41 |
|
4.2 翻译器总体设计思想 |
41-45 |
|
4.3 句子切分 |
45-49 |
|
4.4 词的处理 |
49-57 |
|
4.4.1 词汇分析 |
49-50 |
|
4.4.2 词的自动切分 |
50-51 |
|
4.4.3 化合物GSCCT编码规则 |
51-57 |
|
4.5 词典库的设计及管理与维护模块 |
57-62 |
|
4.5.1 综述 |
57-60 |
|
4.5.2 词典库设计 |
60-62 |
|
4.5.3 词典库的管理和维护 |
62 |
|
4.6 单词语义组合规则 |
62-64 |
|
4.7 嵌套处理 |
64-66 |
|
4.8 条件处理 |
66-68 |
|
4.9 限制处理 |
68 |
|
4.10 机器的学习功能与人工干预技术 |
68-69 |
|
4.11 翻译实例 |
69-71 |
|
参考文献 |
71-72 |
|
5 翻译系统 |
72-78 |
|
5.1 翻译系统输入界面 |
73-76 |
|
5.2 词典库系统 |
76-77 |
|
5.3 输出结果 |
77-78 |
|
6 结果与讨论 |
78-80 |
|
致谢 |
80-83 |
|
| 【DOI】 | LunWen.ID:2.2008.56009 |