|
摘要 |
5-7 |
|
Abstract |
7-12 |
|
第1章 引言 |
12-20 |
|
1.1 研究目的、意义及研究背景 |
12-15 |
|
1.2 网页自动分类 |
15-16 |
|
1.3 搜索引擎 |
16-18 |
|
1.4 本论文的主要工作 |
18 |
|
1.5 论文的结构 |
18-20 |
|
第2章 数码相机专题网页的统计分析 |
20-26 |
|
2.1 数码相机Web网页的特点 |
20-21 |
|
2.1.1 分布的时间特性 |
20 |
|
2.1.2 分布的空间特性 |
20-21 |
|
2.2 数码相机Web网页的特点 |
21-22 |
|
2.3 数码相机Web网页用字、用词统计 |
22-24 |
|
2.4 关键词在数码相机网页两个分类阶段的作用及词表的建立 |
24-25 |
|
2.5 本章小结 |
25-26 |
|
第3章 网页自动分类技术概述 |
26-43 |
|
3.1 中文网页的预处理 |
26-28 |
|
3.2 分类模型 |
28-31 |
|
3.2.1 布尔模型(Boolean Model) |
28-29 |
|
3.2.2 向量空间模型(Vector Space Model) |
29-30 |
|
3.2.3 概率模型(Probabilistic Model) |
30 |
|
3.2.4 语言模型(Language Model) |
30-31 |
|
3.3 特征选择及权值计算 |
31-35 |
|
3.3.1 文档频率(Document Frequency,DF) |
31-32 |
|
3.3.2 信息增益(Information Gain,IG) |
32 |
|
3.3.3 交叉熵(Cross Entropy,CE) |
32 |
|
3.3.4 互信息(Mutual Information,MI) |
32-33 |
|
3.3.5 χ~2统计量(CHI) |
33-34 |
|
3.3.6 文本证据权(Weight of Evidence Text,WET) |
34 |
|
3.3.7 几率比(Odds Ratio,OR) |
34-35 |
|
3.3.8 特征强度(Term Strength,TS) |
35 |
|
3.4 分类器的设计 |
35-41 |
|
3.4.1 基于类中心的最小距离分类器 |
36 |
|
3.4.2 K近邻分类器(K-Nearest) |
36-37 |
|
3.4.3 贝叶斯分类器(Bayes) |
37-39 |
|
3.4.4 支持向量机分类器(SVM) |
39-41 |
|
3.5 评价方法 |
41-42 |
|
3.6 本章小结 |
42-43 |
|
第4章 中文数码相机网页的过滤及实验分析 |
43-61 |
|
4.1 实验的总体介绍 |
43-45 |
|
4.1.1 实验数据的采集 |
43-44 |
|
4.1.2 面向数码相机Web网页过滤系统的构成 |
44-45 |
|
4.2 实验数据的预处理 |
45-46 |
|
4.3 最小距离分类器与各种特征选择方法结合的网页过滤比较 |
46-54 |
|
4.3.1 直接使用TF |
47-48 |
|
4.3.2 文档频率(DF) |
48 |
|
4.3.3 信息增益(IG) |
48-49 |
|
4.3.4 交叉熵(CE) |
49-50 |
|
4.3.5 互信息(MI) |
50-51 |
|
4.3.6 χ~2统计量(CHI) |
51 |
|
4.3.7 文本证据权(WET) |
51-52 |
|
4.3.8 几率比(OR) |
52 |
|
4.3.9 各种特征选择方法的比较 |
52-53 |
|
4.3.10 对几率比和互信息两种特征选择方法的改进 |
53-54 |
|
4.4 贝叶斯分类器和支持向量机的分类实验 |
54-59 |
|
4.4.1 朴素贝叶斯(Naive Bayes)分类器 |
55-58 |
|
4.4.2 支持向量机(Support Vector Machine)分类器 |
58-59 |
|
4.4.3 三种分类器的性能比较 |
59 |
|
4.5 本章小结 |
59-61 |
|
第5章 中文网页的自适应分类 |
61-73 |
|
5.1 自适应分类模型 |
61-64 |
|
5.1.1 检索字扩展模型——Rocchio算法 |
61-62 |
|
5.1.2 自适应分类模型——Improved Rocchio算法 |
62-64 |
|
5.2 自适应分类的实现 |
64-66 |
|
5.3 分类实验及结果 |
66-71 |
|
5.3.1 实验数据及预处理 |
66-67 |
|
5.3.2 分类器及评价方法 |
67 |
|
5.3.3 实验结果 |
67-71 |
|
5.4 本章小结 |
71-73 |
|
第6章 基于密度的中文网页聚类 |
73-82 |
|
6.1 网页聚类所面临的问题 |
73-76 |
|
6.1.1 聚类算法 |
73-76 |
|
6.1.2 特征的选择与提取 |
76 |
|
6.2 Web文档聚类的实现方法 |
76-78 |
|
6.3 Web文档聚类的实验结果 |
78-81 |
|
6.4 本章小结 |
81-82 |
|
结论及工作展望 |
82-85 |
|
1.本论文主要工作包括以下几个方面 |
82-83 |
|
2.对未来工作的展望 |
83-85 |
|
参考文献 |
85-88 |
|
攻读硕士学位期间发表的论文和取得的科研成果 |
88-89 |
|
致谢 |
89 |