| 【中文题名】 | 基于Web的资源搜索引擎 |
| 【英文题名】 | |
| 【学科专业】 | 软件工程 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-8 |
| 【中关键词】 | 信息检索,网络信息检索,数据挖掘,特征提取,机器学习,自动分词 |
| 【英关键词】 | The information retrieval,network information retrieval,data mining,characteristic withdraws,the machine learning automatic participle,content retrieval, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机的应用>信息处理(信息加工)>检索机 |
| 【论文摘要】 |
随着计算机、多媒体和现代通讯技术的飞速发展,以印刷型文献为主的学校图书馆开始向以电子信息和虚拟信息为主的数字图书馆转化。数字图书馆是一种新兴的大型分布式的信息系统,里面含有海量的信息资源。如何找到自己想要的信息资源,就是资源搜索引擎的功能。
网络信息检索作为一种新型检索模式,主要特异性在于网络环境引起的信息资源分布化和数字技术带来的信息资源多媒体化,从而引起了信息检索过程各个要素的量变和质变。一直以来网络信息检索的检索性能的提高备受情报学、计算机、人工智能等方面的关注。用户是信息检索系统的出发点和归宿,因而用户需求的全面、准确的把握是提高检索质量的一个关键因素。本文探讨了数据挖掘在获取用户需求方面的应用,提出了一个基于Web文本集的资源搜索引擎模型。该模型通过对与用户兴趣相关的Web文本集的分析来挖掘用户未表达出来的、潜在信息需求,并通过与用户的交互修正挖掘结果,跟踪用户的兴趣变化。
本文在研究和分析元数据模型涉及到的关键技术,即特征提取、自动分词、机器学习和自动分类技术之后,在此基础上提出了模型的整体设计。重点介绍了实现的几项技术:pccs部分聚类分类技术、用户兴趣表示技术。
... |
| 【论文题纲】 |
|
摘要 |
4-5 |
|
ABSTRACT |
5-9 |
|
第一章 绪论 |
9-19 |
|
1.1 引言 |
9-10 |
|
1.2 什么是网络信息检索 |
10-11 |
|
1.3 网络信息检索的意义 |
11-13 |
|
1.4 网络信息检索工具的研究现状与发展趋势 |
13-18 |
|
1.5 本文的研究工作 |
18-19 |
|
第二章 数据挖掘的相关研究 |
19-24 |
|
2.1 数据挖掘产生的背景 |
19 |
|
2.2 数据挖掘的定义、特点 |
19-20 |
|
2.3 数据挖掘在网络上的研究与应用 |
20-24 |
|
第三章 WEB 文本挖掘的相关技术 |
24-38 |
|
3.1 特征提取 |
24-32 |
|
3.2 自动分词技术 |
32-35 |
|
3.3 机器学习 |
35-36 |
|
3.4 自动分类 |
36-38 |
|
第四章 元数据研究 |
38-53 |
|
4.1 元数据的概念 |
38-39 |
|
4.2 元数据的用途 |
39-40 |
|
4.3 元数据的标准 |
40-41 |
|
4.4 DLRSE 采用的元数据结构 |
41-53 |
|
第五章 基于WEB 的资源搜索引擎 |
53-69 |
|
5.1 主要技术实现 |
53-62 |
|
5.2 具体实现 |
62-66 |
|
5.3 实验效果的探讨 |
66-69 |
|
第六章 结论与展望 |
69-71 |
|
6.1 本文完成的主要工作与贡献 |
69 |
|
6.2 对今后工作的展望 |
69-71 |
|
致谢 |
71-72 |
|
参考文献 |
72-76 |
|
| 【DOI】 | LunWen.ID:2.2008.368530 |