基于分块特征抽取的大规模网页分类研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 自动化 >> 自动化基础 >> 正文
基于分块特征抽取的大规模网页分类研究
作者:马晋 Publish: 2007-8-2 Hits:-
【中文题名】 基于分块特征抽取的大规模网页分类研究
【英文题名】 Block Based Feature Selection and Large Scale Web Page Classification
【学科专业】 计算机应用技术
【论文级别】 硕士论文
【投稿时间】 2007-8-2
【中关键词】 网页分块,网页分类,神经网络,支持向量机,HSVM,
【英关键词】 
【分类导航】 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>人工神经网络与计算>
【论文摘要】  本文针对网页分类问题做出了以下研究: 本文提出了基于分块的特征抽取方法。根据视觉信息的优先级高低进行网页分块的方法,可以有效获取网页的结构化特征。 本文在DocumentObjectModelTree(Dom树)基础上提出了VisualPriorityDomTree(VPDom树)的概念。根据Dom树中的分块的视觉特征,采用神经网络学习算法构建带有分块重要信息的VPDom树。根据VPDom树不同节点的优先级可以对网页分块内的文本信息进行加权处理。本文将加权处理后的网页文本特征用于大规模网页的分类问题当中,取得了显著的效果。 本文使用层次式支持向量机(HSVM)实现了大规模多层类别的网页分类器。支持向量机既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等实际问题。而层次式的结构可以大幅度提高分类的效率,而且易于分布式计算。较之传统平面式的分类算法效率,取得了更高运行效率。HSVM与VPDom的结合为大规模网页分类问题提供了一种行之有效的方法。
【论文题纲】
内容提要 4-7
第一章 绪论 7-19
1.1 网页分类在Web数据挖掘中的意义 7-11
1.1.1 Web数据挖掘 7-9
1.1.2 网页分类在Web数据挖掘中的意义 9-11
1.2 网页分类技术 11-17
1.2.1 网页分类技术概述 11-13
1.2.2 网页分类的历史和现状 13-17
1.3 本文的主要研究内容和组织结构 17-19
第二章 统计机器学习理论 19-25
2.1 机器学习的基本问题 19-21
2.1.1 机器学习问题的描述 19-20
2.1.2 经验风险最小化 20
2.1.3 经验风险的复杂性与推广能力 20-21
2.2 统计学习理论 21-24
2.2.1 VC维 21-22
2.2.2 推广性的界 22-23
2.2.3 结构风险最小化原则(SRM原则) 23-24
2.3 小结 24-25
第三章 基于分块的网页特征抽取 25-38
3.1 网页的文本特征 25-27
3.1.1 信息增益(InformationGain) 26
3.1.2 词频和逆文档频(TF*IDF) 26-27
3.2 网页的结构化特征 27-29
3.2.1 HTML标记特征 27-28
3.2.2 网页分块特征 28-29
3.3 网页的分块 29-33
3.3.1 Dom树 29-30
3.3.2 可视化优先级Dom树(VisualPriorityDom Tree) 30-31
3.3.3 分块的属性 31-33
3.4 基于人工神经网络的网页分块 33-36
3.5 基于分块的特征抽取方法 36-38
第四章 基于层次式支持向量机的网页分类算法 38-45
4.1 支持向量机 38-42
4.1.1 最优分类平面 38-40
4.1.2 支持向量机 40-41
4.1.3 核函数 41-42
4.2 多分类SVM方法 42
4.3 层次式SVM方法 42-45
4.3.1 水平分类法和层次式分类法 42-43
4.3.2 层次式SVM的训练策略和参数的选择 43-45
第五章 实验结果及分析 45-51
5.1 网页分类的评价标准 45-46
5.2 数据集分布情况 46-47
5.3 分类准确度实验 47-49
5.4 分类性能实验 49
5.5 实验结果分析 49-51
第六章 总结 51-54
6.1 总结 51-52
6.2 展望 52-54
参考文献 54-57
摘要 57-60
ABSTRACT 60-63
致谢 63-64
导师及作者简介 64
【DOI】 LunWen.ID:2.2008.388727
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:网页分块 论文 网页分类 神经网络 支持向量机 HSVM
自动化基础最新论文
自动化基础热门论文