| 【中文题名】 | 基于主题的Web信息采集技术研究 |
| 【英文题名】 | Focused Web Crawling Technology |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2006-12-27 |
| 【中关键词】 | Web,信息采集,主题,受限,搜索引擎,PageRank |
| 【英关键词】 | Web,Information Crawling,Information Gathering,Topic,Limited,Search Engine,PageRank,IPageRank, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 |
随着Web上信息的迅速扩展,各项基于Web的服务也逐渐繁荣起来。作为这些信息服务的基础和重要组成部分,Web信息采集正应用于搜索引擎、站点结构分析、页面有效性分析、Web图进化、用户兴趣挖掘以及个性化信息获取等多种应用和研究中。然而,随着人们对提供的各项信息服务要求越来越高,传统的基于整个Web的信息采集也越来越力不从心,它无法及时地采集到足够的Web信息,也不能满足人们日益增长的个性化需求。为此,本文展开了对Web上局部范围内信息的有效采集研究,也就是基于主题的Web信息采集研究。
根据我们在信息采集领域的长期积累以及国内外在基于主题的信息采集领域的发展,本文在综述了基本情况后提出了一个基于主题的Web信息采集结构模型,这包括主题与起始URL选择、Spider采集、页面分析、URL与主题的相关性判定、以及页面与主题的相关性判定等一系列步骤。我们分别给出了相关的处理算法和流程以及相应的数据结构,并针对研究过程中遇到的问题,提出了多个新的算法、判定规则和规律:
在Hub特性、Linkage/Sibling Locality特性、站点主题特性、Tunnel特性的基础上,总结出了主题页面在... |
| 【论文题纲】 |
|
摘 要 |
4-5 |
|
ABSTRACT |
5-8 |
|
第一章 引言 |
8-11 |
|
1.1 背景 |
8-9 |
|
1.2 本文安排 |
9-11 |
|
第二章 WEB信息采集概述 |
11-18 |
|
2.1 WEB 信息采集系统的基本原理 |
11 |
|
2.2 WEB 信息采集系统的基本结构 |
11-13 |
|
2.3 WEB 信息采集面临的主要困难和相应的技术手段 |
13-15 |
|
2.4 采集系统实例 |
15-18 |
|
第三章 WEB 信息采集的研究现状 |
18-24 |
|
3.1 基于整个WEB 的信息采集 |
18-19 |
|
3.2 增量式WEB 信息采集 |
19 |
|
3.3 基于主题的WEB 信息采集 |
19-20 |
|
3.4 基于用户个性化的WEB 信息采集 |
20-21 |
|
3.5 基于AGENT 的信息采集 |
21-22 |
|
3.6 迁移的信息采集 |
22 |
|
3.7 基于元搜索的信息采集: |
22 |
|
3.8 小结 |
22-24 |
|
第四章 基于主题的WEB 信息采集基本问题研究 |
24-44 |
|
4.1 基于主题的WEB 信息采集的定义 |
24 |
|
4.2 基于主题的WEB 信息采集的优点 |
24-25 |
|
4.3 基于主题的WEB 信息采集的分类 |
25-26 |
|
4.4 主题页面在WEB 上的分布特征 |
26-28 |
|
4.5 相关性判别算法研究 |
28-44 |
|
第五章 基于主题的WEB 信息采集系统模型及我们的对策 |
44-48 |
|
5.1 系统模型 |
44 |
|
5.2 模型中的关键问题及我们的策略 |
44-48 |
|
第六章 主题选择 |
48-51 |
|
6.1 主题的定义 |
48 |
|
6.2 主题分类目录 |
48-49 |
|
6.3 WEB 上的主题分类目录的特点 |
49 |
|
6.4 主题选择策略 |
49-51 |
|
第七章 SPIDER 采集 |
51-56 |
|
7.1 SPIDER 的系统模型 |
51-52 |
|
7.2 采集算法及实现 |
52-56 |
|
第八章 页面分析 |
56-59 |
|
8.1 HTML 语法分析 |
56 |
|
8.2 页面中正文的提取 |
56-57 |
|
8.3 页面中链接的提取 |
57-58 |
|
8.4 页面中标题的提取 |
58-59 |
|
第九章 URL、页面与主题的相关性判定 |
59-65 |
|
9 1 URL 与主题的相关性判定——IPAGERANK 算法 |
60-63 |
|
9.2 页面与主题的相关性判定——向量空间模型算法 |
63-65 |
|
第十章 系统的实现与总结 |
65-71 |
|
10.1 系统实现情况 |
65 |
|
10.2 系统测试结果 |
65-69 |
|
10 3 进一步的工作 |
69 |
|
10.4 结论 |
69-71 |
|
参考文献 |
71-75 |
|
致谢 |
75-76 |
|
作者简介 |
76 |
|
| 【DOI】 | LunWen.ID:2.2008.374265 |