| 【中文题名】 | 基于Web的信息智能感知技术及应用 |
| 【英文题名】 | Technology of Information Intelligent Perception Based on Web and Its Applications |
| 【学科专业】 | 系统分析与集成 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2005-11-7 |
| 【中关键词】 | web挖掘,自然语言处理,网页去噪,文本分类,, |
| 【英关键词】 | Web Mining,Natural Language Processing,Noise Elimination,Text Categorization, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>> |
| 【论文摘要】 | Web信息空间中蕴涵着具有巨大潜在价值的知识,从这些海量数据源中发现有用的知识或模式是当今的研究热点。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web异常庞大的数据量,数据的无结构与半结构性以及Web极强的动态性使得如何对Web进行有效的资源和知识发现成为一个复杂的问题。
基于Web的智能感知技术旨在探索一条能够从Web海量的信息中高效地获取感兴趣部分,并将其转化成人类能直接利用的知识的自动化、智能化的道路,具有重要的理论与实践意义。
本文通过对Web挖掘和自然语言处理技术的研究,在两个研究方向间建立起有机的联系,将自然语言理解引入Web挖掘领域,从语义的角度对Web挖掘进行研究.。本文还建立一个基于Web的信息智能感知模型,探索出了一条从及时感应Web上数据流的变化、自动获取Web上感兴趣信息、再到将这些信息智能转化为可为人类直接决策参考之用的知识的新的完整的研究路线。本文:
1) 设计并实现了一种基于风格树模型的网页噪声去除方法,实验证明该方法可以显著地改善Web挖掘的质量;
2) 构造了一种改进的基于N-最短路... |
| 【论文题纲】 |
|
摘要 |
8-9 |
|
ABSTRACT |
9-10 |
|
第一章 绪论 |
10-14 |
|
1.1 问题的提出 |
10-11 |
|
1.2 国内外研究动态 |
11-12 |
|
1.3 主要研究内容 |
12-14 |
|
1.3.1 主要内容 |
12 |
|
1.3.2 论文结构 |
12-14 |
|
第二章 基本概念 |
14-29 |
|
2.1 Web挖掘的概念及研究现状 |
14-23 |
|
2.1.1 Web挖掘概念及研究内容 |
14 |
|
2.1.2 Web挖掘的特点 |
14-15 |
|
2.1.3 Web挖掘的分类及研究现状 |
15-23 |
|
2.2 自然语言理解的概念及研究现状 |
23-29 |
|
2.2.1 自然语言理解的概念及研究内容 |
23-27 |
|
2.2.2 自然语言理解的研究现状 |
27-29 |
|
第三章 Web信息挖掘 |
29-50 |
|
3.1 风格树网页去噪模型 |
29-40 |
|
3.1.1 Web站点爬行 |
30-34 |
|
3.1.2 风格树模型 |
34-37 |
|
3.1.3 噪声检测 |
37-38 |
|
3.1.3 实验结果 |
38-40 |
|
3.2 Web文本自然语言处理 |
40-50 |
|
3.2.1 自然语言处理中的统计模型 |
40-43 |
|
3.2.2 改进的N-最短路统计分词 |
43-46 |
|
3.2.3 基于 HMM的词性标注 |
46-47 |
|
3.2.4 概率型句法分析 |
47-50 |
|
第四章 Web金融信息感知模型 |
50-61 |
|
4.1 引言 |
50 |
|
4.2 基于语义框架的金融事件提取 |
50-53 |
|
4.2.1 金融事件的含义 |
50-51 |
|
4.2.2 基于语义框架的金融事件模板 |
51-53 |
|
4.3 仿人自动文本分类方法 |
53-61 |
|
4.3.1 基于句法分析的文本分类 |
55-56 |
|
4.3.2 K最近邻文本分类 |
56-58 |
|
4.3.3 仿人分类算法描述 |
58-59 |
|
4.3.4 分类质量评价 |
59-61 |
|
第五章 结束语 |
61-63 |
|
5.1 主要工作和创新点 |
61-62 |
|
5.1.1 主要工作 |
61 |
|
5.1.2 创新点 |
61-62 |
|
5.2 进一步的工作 |
62-63 |
|
致谢 |
63-64 |
|
参考文献 |
64-67 |
|
附录 硕士阶段的主要工作 |
67 |
|
| 【DOI】 | LunWen.ID:2.2008.387549 |