智能搜索中中文网页分类和聚类的初步研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 互联网技术 >> 正文
智能搜索中中文网页分类和聚类的初步研究
作者:高超 Publish: 2007-8-21 Hits:-
【中文题名】 智能搜索中中文网页分类和聚类的初步研究
【英文题名】 Preliminary Research on Classification and Clustering of Chinese Web Page Involved in Intelligent Search
【学科专业】 计算机应用技术
【论文级别】 硕士论文
【投稿时间】 2007-8-21
【中关键词】 智能搜索,网页过滤,特征选择,自适应分类,密度聚类,
【英关键词】 Intelligent Search,Web Page Filtering,Feature Selection,Adaptive Classification,Clustering based on Density,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题
【论文摘要】  网络的发展使得世界各地越来越丰富的电子资源信息供人们使用,但是随着数字信息的爆炸性增长,快速有效地获取需要的相关信息却又变得越来越困难,因而对信息获取技术的发展提出了更高的要求。由于网络资源的复杂性,综合性的搜索引擎不能适应用户对信息检索的准确性要求,因此专业化、专题化信息搜索技术成为热点和趋势。本论文研究的是基于内容的面向数码产品领域的中文Web网页的信息获取问题,其主要任务是从众多的网页中分离和过滤出数码产品专题网页,并进一步将其分类管理,以达到为用户提供更精确信息的目的。 本论文主要对中文文本自动分类和聚类的相关技术进行了研究和探讨,为开发面向数码产品领域的垂直型搜索引擎提供技术准备。论文主要工作包括以下几个方面: (1)对数码专题Web网页的时间和空间的分布规律、数码产品网页内容的特点以及用字用词情况进行了统计和分析,为进一步的研究工作提供了直接依据。并根据面向数码专题网页信息获取的特点,提出了分级建立资源词表的思想。 (2)结合数码专题网页的过滤问题,对自动分类领域中不同的特征选择方法以及各种分类器的设计和性能评价方面进行了归纳,并利用真实的网页数据集合进行了比较性...
【论文题纲】
摘要 5-7
Abstract 7-12
第1章 引言 12-20
1.1 研究目的、意义及研究背景 12-15
1.2 网页自动分类 15-16
1.3 搜索引擎 16-18
1.4 本论文的主要工作 18
1.5 论文的结构 18-20
第2章 数码相机专题网页的统计分析 20-26
2.1 数码相机Web网页的特点 20-21
2.1.1 分布的时间特性 20
2.1.2 分布的空间特性 20-21
2.2 数码相机Web网页的特点 21-22
2.3 数码相机Web网页用字、用词统计 22-24
2.4 关键词在数码相机网页两个分类阶段的作用及词表的建立 24-25
2.5 本章小结 25-26
第3章 网页自动分类技术概述 26-43
3.1 中文网页的预处理 26-28
3.2 分类模型 28-31
3.2.1 布尔模型(Boolean Model) 28-29
3.2.2 向量空间模型(Vector Space Model) 29-30
3.2.3 概率模型(Probabilistic Model) 30
3.2.4 语言模型(Language Model) 30-31
3.3 特征选择及权值计算 31-35
3.3.1 文档频率(Document Frequency,DF) 31-32
3.3.2 信息增益(Information Gain,IG) 32
3.3.3 交叉熵(Cross Entropy,CE) 32
3.3.4 互信息(Mutual Information,MI) 32-33
3.3.5 χ~2统计量(CHI) 33-34
3.3.6 文本证据权(Weight of Evidence Text,WET) 34
3.3.7 几率比(Odds Ratio,OR) 34-35
3.3.8 特征强度(Term Strength,TS) 35
3.4 分类器的设计 35-41
3.4.1 基于类中心的最小距离分类器 36
3.4.2 K近邻分类器(K-Nearest) 36-37
3.4.3 贝叶斯分类器(Bayes) 37-39
3.4.4 支持向量机分类器(SVM) 39-41
3.5 评价方法 41-42
3.6 本章小结 42-43
第4章 中文数码相机网页的过滤及实验分析 43-61
4.1 实验的总体介绍 43-45
4.1.1 实验数据的采集 43-44
4.1.2 面向数码相机Web网页过滤系统的构成 44-45
4.2 实验数据的预处理 45-46
4.3 最小距离分类器与各种特征选择方法结合的网页过滤比较 46-54
4.3.1 直接使用TF 47-48
4.3.2 文档频率(DF) 48
4.3.3 信息增益(IG) 48-49
4.3.4 交叉熵(CE) 49-50
4.3.5 互信息(MI) 50-51
4.3.6 χ~2统计量(CHI) 51
4.3.7 文本证据权(WET) 51-52
4.3.8 几率比(OR) 52
4.3.9 各种特征选择方法的比较 52-53
4.3.10 对几率比和互信息两种特征选择方法的改进 53-54
4.4 贝叶斯分类器和支持向量机的分类实验 54-59
4.4.1 朴素贝叶斯(Naive Bayes)分类器 55-58
4.4.2 支持向量机(Support Vector Machine)分类器 58-59
4.4.3 三种分类器的性能比较 59
4.5 本章小结 59-61
第5章 中文网页的自适应分类 61-73
5.1 自适应分类模型 61-64
5.1.1 检索字扩展模型——Rocchio算法 61-62
5.1.2 自适应分类模型——Improved Rocchio算法 62-64
5.2 自适应分类的实现 64-66
5.3 分类实验及结果 66-71
5.3.1 实验数据及预处理 66-67
5.3.2 分类器及评价方法 67
5.3.3 实验结果 67-71
5.4 本章小结 71-73
第6章 基于密度的中文网页聚类 73-82
6.1 网页聚类所面临的问题 73-76
6.1.1 聚类算法 73-76
6.1.2 特征的选择与提取 76
6.2 Web文档聚类的实现方法 76-78
6.3 Web文档聚类的实验结果 78-81
6.4 本章小结 81-82
结论及工作展望 82-85
1.本论文主要工作包括以下几个方面 82-83
2.对未来工作的展望 83-85
参考文献 85-88
攻读硕士学位期间发表的论文和取得的科研成果 88-89
致谢 89
【DOI】 LunWen.ID:2.2008.375760
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:智能搜索 论文 网页过滤 特征选择 自适应分类 密度聚类
互联网技术最新论文
互联网技术热门论文