| 【中文题名】 | Internet网页自动分类技术的研究 |
| 【英文题名】 | |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-16 |
| 【中关键词】 | Internet,搜索引擎,自动分类,网页净化,特征选择, |
| 【英关键词】 | Internet,search engine,automatic classification,Web page purification,feature selection, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题 |
| 【论文摘要】 |
搜索引擎的搜索结果包含了大量网页,用户如何从中快速获取所需信息是十分重要的问题。因此,研究人员提出对搜索结果进行网页自动分类,使结果按内容类别呈现给用户,提高用户查询效率。
网页自动分类一般包括网页净化、特征选择、向量表示、训练算法、分类算法等五个部分。本文对网页自动分类进行了深入的研究,重点研究了网页净化算法和特征选择算法,并将研究结果应用到一个针对搜索结果的网页自动分类试验系统中。
论文的内容主要包括以下几个方面:
1.介绍了网页自动分类的一般过程,并详细分析了向量表示与分类算法过程。
2.提出了一种基于局部语义的网页净化算法。新的算法克服了相关研究工作中对网页内容块划分过细、内容块特征提取不完整的缺点,能够自适应地调整网页内容块的范围。实验表明算法是有效的。
3.提出了一种改进的特征选择算法CD-DF。算法引入“类间频率差”的概念,有效地去除了特征词空间中的噪音特征,提高了特征词的表达能力。实验表明,CD-DF算法提高了系统的分类性能。
4.实现了一个针对搜索引擎检索结果的网页自动分类实验系统。通过实际运行表明,实验系统提高了用户使用搜索引擎的效... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
ABSTRACT |
4-9 |
|
第一章 绪论 |
9-17 |
|
1.1 研究背景及意义 |
9 |
|
1.2 搜索引擎综述 |
9-12 |
|
1.2.1 搜索引擎的概念 |
9-10 |
|
1.2.2 搜索引擎的发展 |
10-12 |
|
1.3 网页自动分类现状 |
12-13 |
|
1.4 论文研究目标 |
13-15 |
|
1.5 本文的内容安排与贡献 |
15-17 |
|
1.5.1 内容安排 |
15 |
|
1.5.2 贡献 |
15-17 |
|
第二章 网页自动分类的相关问题 |
17-25 |
|
2.1 网页自动分类简介 |
17-18 |
|
2.2 网页自动分类的一般过程 |
18-19 |
|
2.3 向量表示 |
19-21 |
|
2.3.1 文档的表示 |
19-20 |
|
2.3.2 文档集的表示 |
20 |
|
2.3.3 权值计算 |
20-21 |
|
2.4 支持向量机方法 |
21-24 |
|
2.5 本章小结 |
24-25 |
|
第三章 网页净化技术 |
25-34 |
|
3.1 相关研究 |
25 |
|
3.2 算法设计思想 |
25-29 |
|
3.2.1 链接密度 |
27 |
|
3.2.2 节点相似度 |
27-28 |
|
3.2.3 局部语义树 |
28-29 |
|
3.3 局部语义算法描述 |
29-30 |
|
3.3.1 网页分割算法 |
29-30 |
|
3.3.2 剪枝算法 |
30 |
|
3.4 实验结果分析 |
30-33 |
|
3.4.1 有效性实验 |
31-32 |
|
3.4.2 适应性实验 |
32-33 |
|
3.5 本章小结 |
33-34 |
|
第四章 网页特征选择算法 |
34-43 |
|
4.1 基本概念 |
34 |
|
4.2 相关研究 |
34-36 |
|
4.3 算法比较 |
36-39 |
|
4.3.1 性能评价 |
36-37 |
|
4.3.2 实验过程与结果 |
37-39 |
|
4.4 算法改进 |
39-42 |
|
4.4.1 当前算法的不足 |
39-40 |
|
4.4.2 一种改进的文档频率算法 |
40 |
|
4.4.3 验证与分析 |
40-42 |
|
4.5 本章小结 |
42-43 |
|
第五章 网页自动分类实验系统 |
43-53 |
|
5.1 总体目标 |
43 |
|
5.2 体系结构 |
43-44 |
|
5.3 系统实现 |
44-51 |
|
5.3.1 特征提取器 |
45-47 |
|
5.3.2 特征选择器 |
47-48 |
|
5.3.3 网页训练器 |
48-49 |
|
5.3.4 网页分类器 |
49-50 |
|
5.3.5 搜索结果抓取器 |
50-51 |
|
5.4 系统运行 |
51-52 |
|
5.4.1 数据准备 |
51 |
|
5.4.2 分类结果 |
51-52 |
|
5.5 本章小结 |
52-53 |
|
第六章 总结和未来研究目标 |
53-55 |
|
6.1 总结 |
53 |
|
6.2 未来研究目标 |
53-55 |
|
参考文献 |
55-59 |
|
致谢 |
59-60 |
|
攻读硕士学位期间主要的研究成果 |
60 |
|
| 【DOI】 | LunWen.ID:2.2008.376471 |