| 【论文摘要】 | 随着计算机和因特网的迅速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富,这已成为数字图书馆的发展动力。同时网络存储和交换技术的发展,也逐渐带动了数字图书馆相关技术研究的进展。数字图书馆是一个新兴的,涉及到因特网、多媒体、数据仓库、数据挖掘和知识产权保护等诸多技术的计算机应用领域,其应用和商业前景非常广阔。
本文是在数字图书馆系统的环境下,对资源库中保存的网页进行有效分类的研究。在研究初期,认真分析了数字图书馆的总体需求,并通过其需求总图、数据流程图和系统模块图的描述,找出了系统的关键问题之一,就是要解决资源库中保存的网页文本分类问题。从而接下来的研究工作就是围绕这个主题所展开的。
本文的第三章主要介绍了文本分类中的关键技术,包括文本预处理技术及面向分类模型的特征抽取技术,从而获得文本的特征集合;并从理论上分析了KNN学习算法以及其他六种常用算法,并比较其特性并最终选择了KNN算法;同时也介绍了评价分类器性能的几个评价指标。而后在第四章中对网页信息的自动提取问题进行了描述,并设计了网页信息提取的流程图。第五章是网页文本分类器的方案设计,包括系统结构图、模块图、分类体系设计、... |