| 【中文题名】 | 基于分块特征抽取的大规模网页分类研究 |
| 【英文题名】 | Block Based Feature Selection and Large Scale Web Page Classification |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-2 |
| 【中关键词】 | 网页分块,网页分类,神经网络,支持向量机,HSVM, |
| 【英关键词】 | |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>人工神经网络与计算> |
| 【论文摘要】 |
本文针对网页分类问题做出了以下研究:
本文提出了基于分块的特征抽取方法。根据视觉信息的优先级高低进行网页分块的方法,可以有效获取网页的结构化特征。
本文在DocumentObjectModelTree(Dom树)基础上提出了VisualPriorityDomTree(VPDom树)的概念。根据Dom树中的分块的视觉特征,采用神经网络学习算法构建带有分块重要信息的VPDom树。根据VPDom树不同节点的优先级可以对网页分块内的文本信息进行加权处理。本文将加权处理后的网页文本特征用于大规模网页的分类问题当中,取得了显著的效果。
本文使用层次式支持向量机(HSVM)实现了大规模多层类别的网页分类器。支持向量机既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等实际问题。而层次式的结构可以大幅度提高分类的效率,而且易于分布式计算。较之传统平面式的分类算法效率,取得了更高运行效率。HSVM与VPDom的结合为大规模网页分类问题提供了一种行之有效的方法。 |
| 【论文题纲】 |
|
内容提要 |
4-7 |
|
第一章 绪论 |
7-19 |
|
1.1 网页分类在Web数据挖掘中的意义 |
7-11 |
|
1.1.1 Web数据挖掘 |
7-9 |
|
1.1.2 网页分类在Web数据挖掘中的意义 |
9-11 |
|
1.2 网页分类技术 |
11-17 |
|
1.2.1 网页分类技术概述 |
11-13 |
|
1.2.2 网页分类的历史和现状 |
13-17 |
|
1.3 本文的主要研究内容和组织结构 |
17-19 |
|
第二章 统计机器学习理论 |
19-25 |
|
2.1 机器学习的基本问题 |
19-21 |
|
2.1.1 机器学习问题的描述 |
19-20 |
|
2.1.2 经验风险最小化 |
20 |
|
2.1.3 经验风险的复杂性与推广能力 |
20-21 |
|
2.2 统计学习理论 |
21-24 |
|
2.2.1 VC维 |
21-22 |
|
2.2.2 推广性的界 |
22-23 |
|
2.2.3 结构风险最小化原则(SRM原则) |
23-24 |
|
2.3 小结 |
24-25 |
|
第三章 基于分块的网页特征抽取 |
25-38 |
|
3.1 网页的文本特征 |
25-27 |
|
3.1.1 信息增益(InformationGain) |
26 |
|
3.1.2 词频和逆文档频(TF*IDF) |
26-27 |
|
3.2 网页的结构化特征 |
27-29 |
|
3.2.1 HTML标记特征 |
27-28 |
|
3.2.2 网页分块特征 |
28-29 |
|
3.3 网页的分块 |
29-33 |
|
3.3.1 Dom树 |
29-30 |
|
3.3.2 可视化优先级Dom树(VisualPriorityDom Tree) |
30-31 |
|
3.3.3 分块的属性 |
31-33 |
|
3.4 基于人工神经网络的网页分块 |
33-36 |
|
3.5 基于分块的特征抽取方法 |
36-38 |
|
第四章 基于层次式支持向量机的网页分类算法 |
38-45 |
|
4.1 支持向量机 |
38-42 |
|
4.1.1 最优分类平面 |
38-40 |
|
4.1.2 支持向量机 |
40-41 |
|
4.1.3 核函数 |
41-42 |
|
4.2 多分类SVM方法 |
42 |
|
4.3 层次式SVM方法 |
42-45 |
|
4.3.1 水平分类法和层次式分类法 |
42-43 |
|
4.3.2 层次式SVM的训练策略和参数的选择 |
43-45 |
|
第五章 实验结果及分析 |
45-51 |
|
5.1 网页分类的评价标准 |
45-46 |
|
5.2 数据集分布情况 |
46-47 |
|
5.3 分类准确度实验 |
47-49 |
|
5.4 分类性能实验 |
49 |
|
5.5 实验结果分析 |
49-51 |
|
第六章 总结 |
51-54 |
|
6.1 总结 |
51-52 |
|
6.2 展望 |
52-54 |
|
参考文献 |
54-57 |
|
摘要 |
57-60 |
|
ABSTRACT |
60-63 |
|
致谢 |
63-64 |
|
导师及作者简介 |
64 |
|
| 【DOI】 | LunWen.ID:2.2008.388727 |