面向专业主题的网页分类算法研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 互联网技术 >> 正文
面向专业主题的网页分类算法研究
作者:王强 Publish: 2005-11-7 Hits:-
【中文题名】 面向专业主题的网页分类算法研究
【英文题名】 Research on Web Page Classification Algorithms of Professional Theme
【学科专业】 软件工程
【论文级别】 硕士论文
【投稿时间】 2005-11-7
【中关键词】 网页过滤,特征选择,自适应分类,,,
【英关键词】 Web Page Filtering,Feature Selection,Adaptive Classification,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题
【论文摘要】 网络的发展使人们能够快捷方便地从全世界范围内获得多样的电子资源信息,但是随着数字资源信息的爆炸性增长,快速有效地获取相关信息却又变得越来越困难。因而对信息获取技术的发展提出了更高的要求。由于网络资源的复杂性,综合性的搜索引擎已经不能满足用户信息检索的准确性需要。因此专业化、专题化信息搜索技术成为目前的一个研究热点。本论文结合奥运专题网页,针对网络信息获取的相关技术进行了初步研究和探讨。 本论文主要工作包括以下几个方面: (1)结合奥运网页的过滤问题,对自动分类领域中不同的特征选择方法以及各种分类器的设计和性能评价方面进行了分析,并在具体的实验数据集合上将不同的特征选择方法和不同的分类器相结合进行了比较性的实验。实验表明,多种特征选择的方法能够准确地选择有较好的分类能力的特征,能够达到特征降维的目的。而对于利用特征加权后的分类性能,不同的分类器会取得不同的分类结果,主要是因为每个分类器的分类机理有所不同,使不同频率的特征在分类中发挥的作用相异所至。 (2)针对网络资源具有动态性、顺序性和时效性的特点,基于Rocchio的检索字扩展模型提出了增量式网页的自适应分类方法。由...
【论文题纲】
摘要 8-9
ABSTRACT 9-10
第一章 引言 10-15
1.1 论文课题研究背景 10
1.2 信息检索技术的发展及其评价方法 10-12
1.3 网页自动分类——信息检索的重要技术手段 12
1.4 搜索引擎——信息检索的应用 12-13
1.5 本论文的主要工作及意义 13-15
第二章 网页的处理和自动分类技术概述 15-23
2.1 中文网页的处理 15-16
2.2 数据模型 16-18
2.2.1 布尔模型 16-17
2.2.2 向量空间模型 17-18
2.3 特征选择及权值计算 18-20
2.3.1 文档频率(DF) 18-19
2.3.2 信息增益(IG) 19
2.3.3 交叉熵(CE) 19
2.3.4 互斥信息(MI) 19-20
2.4 分类器的设计 20-23
2.4.1 贝叶斯分类器(Bayes) 21-22
2.4.2 K近邻分类器(K-Nearest) 22-23
第三章 中文奥运网页的分类算法实现及实验分析 23-36
3.1 实验的总体介绍 23-25
3.1.1 实验数据的采集 23
3.1.2 过滤系统的构成 23-25
3.2 实验数据的预处理 25-26
3.3 算法设计与实现 26-32
3.4 几种特征选择方法的网页过滤实验及比较 32-35
3.4.1 直接使用(TF) 32
3.4.2 文档频率(DF) 32-33
3.4.3 信息增益(IG) 33-34
3.4.4 交叉熵(CE) 34
3.4.5 互斥信息(MI) 34-35
3.5 本章小结 35-36
第四章 中文网页的自适应分类算法设计与实现 36-51
4.1 自适应分类模型 36-38
4.2 自适应分类的实现 38-40
4.2.1 己有的文档集合分类模型的建立算法 39-40
4.2.2 对于新加入文档的处理 40
4.3 算法设计与实现 40-44
4.3.1 算法设计:自动确定摘要长度的算法(逐维提取法) 40-44
4.4 分类实验及结果 44-50
4.4.1 实验数据及预处理 44-45
4.4.2 分类器及评价方法 45
4.4.3 实验结果 45-48
4.4.4 模型在分类过程中的变化 48-50
4.5 本章小结 50-51
第五章 结论及工作展望 51-53
致谢 53-54
附录:攻读硕士期间发表的论文 54-55
参考文献 55-57
【DOI】 LunWen.ID:2.2008.371916
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:网页过滤 论文 特征选择 自适应分类
互联网技术最新论文
互联网技术热门论文