数字图书馆的中文网页文本分类器研究
| 论文之家 | 代写论文 | 发表论文 | 站点地图 | 收藏本站 |
您现在的位置: 硕士论文 >> 电子论文 >> 计算机 >> 互联网技术 >> 正文
数字图书馆的中文网页文本分类器研究
作者:郭琛 Publish: 2006-1-4 Hits:-
【中文题名】 数字图书馆的中文网页文本分类器研究
【英文题名】 The Research of Web Text Classifier in the Digital Library
【学科专业】 系统工程
【论文级别】 硕士论文
【投稿时间】 2006-1-4
【中关键词】 数字图书馆,网页文本分类,分类算法,分类器,,
【英关键词】 digital library,text classification of webpage,classify algorithm,classifier,
【分类导航】 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>计算机网络>一般性问题
【论文摘要】 随着计算机和因特网的迅速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富,这已成为数字图书馆的发展动力。同时网络存储和交换技术的发展,也逐渐带动了数字图书馆相关技术研究的进展。数字图书馆是一个新兴的,涉及到因特网、多媒体、数据仓库、数据挖掘和知识产权保护等诸多技术的计算机应用领域,其应用和商业前景非常广阔。 本文是在数字图书馆系统的环境下,对资源库中保存的网页进行有效分类的研究。在研究初期,认真分析了数字图书馆的总体需求,并通过其需求总图、数据流程图和系统模块图的描述,找出了系统的关键问题之一,就是要解决资源库中保存的网页文本分类问题。从而接下来的研究工作就是围绕这个主题所展开的。 本文的第三章主要介绍了文本分类中的关键技术,包括文本预处理技术及面向分类模型的特征抽取技术,从而获得文本的特征集合;并从理论上分析了KNN学习算法以及其他六种常用算法,并比较其特性并最终选择了KNN算法;同时也介绍了评价分类器性能的几个评价指标。而后在第四章中对网页信息的自动提取问题进行了描述,并设计了网页信息提取的流程图。第五章是网页文本分类器的方案设计,包括系统结构图、模块图、分类体系设计、...
【论文题纲】
摘要 3-4
ABSTRACT 4-5
目录 5-7
第1章 绪论 7-15
1.1 选题背景及意义 7-8
1.2 国内外研究现状 8-14
1.2.1 数字图书馆 8-9
1.2.2 数字图书馆的个性化服务 9-11
1.2.3 分类技术的研究现状 11-14
1.3 论文所作的工作 14-15
第2章 问题的描述 15-20
2.1 系统对象分析 15
2.2 数字图书馆需求概述 15-16
2.3 总体需求图 16-17
2.4 总体数据流程图 17-18
2.5 系统总体模块图 18-19
2.6 网页文本分类的功能及其作用面 19-20
第3章 网页文本分类 20-32
3.1 文本分类 20-22
3.1.1 文本分类的定义 20
3.1.2 文本分类的应用 20-22
3.1.3 文本分类的过程 22
3.2 网页文本分类过程 22-24
3.2.1 网页信息处理 22-23
3.2.2 文本预处理 23
3.2.3 文本表示 23
3.2.4 特征选取 23-24
3.2.5 特征匹配和分类 24
3.3 分类算法及其评价指标 24-32
3.3.1 分类算法 25-28
3.3.2 分类算法性能比较 28-29
3.3.3 分类算法的评价指标 29-32
第4章 网页信息的自动提取 32-37
4.1 网页信息分析 32-34
4.1.1 结构信息 32-33
4.1.2 与分类密切相关的HTML标记 33-34
4.2 网页数据模型 34-35
4.3 网页信息提取流程图 35-37
第5章 中文网页分类器的模型设计 37-47
5.1 系统结构图 37
5.2 系统模块设计 37-38
5.3 系统用到的分类体系 38-43
5.4 分类器处理流程图 43-44
5.5 系统中用到的几个算法 44-45
5.5.1 特征选取算法 44
5.5.2 KNN分类算法及其阈值策略 44-45
5.6 结果的表示和存储 45
5.7 返回结果对数字图书馆系统的支持 45-46
5.8 本文设计的分类器与搜索引擎的分类器的区别 46-47
第6章 总结与展望 47-49
6.1 全文总结 47
6.2 下一步工作及展望 47-49
参考文献 49-52
致谢 52-53
研究生期间公开发表的论文 53
【DOI】 LunWen.ID:2.2008.372007
付费论文:有参考文献 300元
1、注册会员             2、购买本文            3、下载文章 
注:此文为收费论文,需付费购买。每页大约1000字。
代写论文流程
载入中…
Web lunwenjia
热门搜索:数字图书馆 论文 网页文本分类 分类算法 分类器
互联网技术最新论文
互联网技术热门论文