| 【中文题名】 | 基于网页结构相关性预取技术研究 |
| 【英文题名】 | |
| 【学科专业】 | 软件工程 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-11-5 |
| 【中关键词】 | Web预取,结构相关性,隐马尔可夫模型,超链,, |
| 【英关键词】 | Web Pre-fetching,Structural-Relation,HMM,hyperlink, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 |
解决Web访问延迟问题的主要方案是缓存技术和预取技术。虽然缓存技术在互联网上有着非常广泛的应用,但是随着WWW上动态内容和个性化服务的比重日益增加,缓存技术对网络性能的改善不再显著,而预取技术作为缓存技术的一种补充手段,是突破缓存性能上限的最有效的方法,正越来越成为Web加速技术研究的热点。然而预取技术在实际应用中必须解决好两个问题:预测准确性和适时预取。预测准确性决定哪些对象值得预取,适时预取根据系统资源状态决定适时预取Web对象及预取的数量。本文针对这两个问题在对Web对象浏览特征进行深入研究的基础上,提出一种基于网页结构相关性的预取模型,以相对小的网络流量获得相对好的访问延迟缩减率。
本文首先介绍了Internet和WWW起源、发展及现状,提出了互联网所面临的问题及解决方案,重点对Web页面的超链语义进行了深入的研究,挖掘用户访问序列中蕴含的概念需求。用户浏览页面的行为表现为根据当前页面的超链继续浏览,这种行为类似于有向图的深度遍历,因此用户浏览的网页间具有结构相关性,另一方面用户在不同网页间跳转又具有Markov性;把用户的这种行为扩展为一个双随机过程,就是隐马尔可夫过程。这些是本文... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
Abstract |
4-8 |
|
第一章 绪论 |
8-14 |
|
1.1 课题的背景和意义 |
8-10 |
|
1.2 研究课题描述 |
10-12 |
|
1.3 主要工作与内容安排 |
12-14 |
|
1.3.1 主要工作 |
12-13 |
|
1.3.2 内容安排 |
13-14 |
|
第二章 WEB预取的特点及方法 |
14-25 |
|
2.1 预取技术研究的可行性 |
14-16 |
|
2.2 预取的分类 |
16-21 |
|
2.2.1 客户(浏览器)端预取 |
16-17 |
|
2.2.2 代理服务器端预取 |
17-19 |
|
2.2.3 服务器端预取 |
19-21 |
|
2.3 预取算法分析 |
21-24 |
|
2.3.1 基于历史(History Based)的预取 |
22 |
|
2.3.2 基于链接(link Based)的预取 |
22-23 |
|
2.3.3 基于兴趣(interest based)的预取 |
23-24 |
|
2.4 本章小结 |
24-25 |
|
第三章 WEB的结构相关性 |
25-31 |
|
3.1 一个页面内部的半结构化数据资源具有结构相关性 |
25-26 |
|
3.2 文档 URL中的目录路径具有结构相关性 |
26 |
|
3.3 网页之间的超链接具有结构相关性 |
26-30 |
|
3.3.1 超链接标志 |
26-27 |
|
3.3.2 超链的有向图 |
27-28 |
|
3.3.3 网页中链分布特点 |
28-30 |
|
3.4 本章小结 |
30-31 |
|
第四章 隐马尔可夫模型( HMM) |
31-37 |
|
4.1 隐马尔可夫模型基本思想 |
31-33 |
|
4.1.1 隐马尔可夫模型 |
31-32 |
|
4.1.2 HMM定义 |
32-33 |
|
4.2 隐马尔可夫模型的三个基本问题 |
33-35 |
|
4.2.1 识别问题的解决 |
33-34 |
|
4.2.2 前向—后向算法 |
34-35 |
|
4.4 用户访问行为的 Markov性 |
35-36 |
|
4.5 本章小结 |
36-37 |
|
第五章 基于网页结构相关性的预取模型 |
37-49 |
|
5.1 Web简化模型描述 |
37-38 |
|
5.2 代理服务器 Log预处理 |
38-39 |
|
5.3 基于网页结构相关性的 Web信息提取 |
39-46 |
|
5.3.1 信息提取技术 |
39 |
|
5.3.2 建立特征词词典 |
39-41 |
|
5.3.3 TF-IDF算法及其改进 |
41-43 |
|
5.3.4 特征向量维数压缩 |
43 |
|
5.3.5 特征项权重的计算方法 |
43-45 |
|
5.3.6 特征词提取过程 |
45-46 |
|
5.4 用户访问序列的输出概率 |
46-48 |
|
5.5 本章小结 |
48-49 |
|
第六章 基于网页结构相关性预取模型实现 |
49-60 |
|
6.1 预取系统与代理服务器的衔接 |
49 |
|
6.2 预取系统的结构 |
49-54 |
|
6.2.1 离线挖掘用户的会话集 |
50-52 |
|
6.2.2 在线预取子系统 |
52-54 |
|
6.3 实验结果及分析 |
54-59 |
|
6.3.1 性能评价指标 |
54-55 |
|
6.3.2 实验设计 |
55-57 |
|
6.3.3 测试结果分析 |
57-59 |
|
6.4 本章小结 |
59-60 |
|
第七章 结论与展望 |
60-61 |
|
7.1 结论 |
60 |
|
7.2 不足和展望 |
60-61 |
|
参考文献 |
61-65 |
|
附录1 攻读硕士期间发表学术论文 |
65-66 |
|
致谢 |
66 |
|
| 【DOI】 | LunWen.ID:2.2008.389149 |