| 【论文摘要】 | 网络的发展使人们能够快捷方便地从全世界范围内获得多样的电子资源信息,但是随着数字资源信息的爆炸性增长,快速有效地获取相关信息却又变得越来越困难。因而对信息获取技术的发展提出了更高的要求。由于网络资源的复杂性,综合性的搜索引擎已经不能满足用户信息检索的准确性需要。因此专业化、专题化信息搜索技术成为目前的一个研究热点。本论文结合奥运专题网页,针对网络信息获取的相关技术进行了初步研究和探讨。
本论文主要工作包括以下几个方面:
(1)结合奥运网页的过滤问题,对自动分类领域中不同的特征选择方法以及各种分类器的设计和性能评价方面进行了分析,并在具体的实验数据集合上将不同的特征选择方法和不同的分类器相结合进行了比较性的实验。实验表明,多种特征选择的方法能够准确地选择有较好的分类能力的特征,能够达到特征降维的目的。而对于利用特征加权后的分类性能,不同的分类器会取得不同的分类结果,主要是因为每个分类器的分类机理有所不同,使不同频率的特征在分类中发挥的作用相异所至。
(2)针对网络资源具有动态性、顺序性和时效性的特点,基于Rocchio的检索字扩展模型提出了增量式网页的自适应分类方法。由... |