| 【论文摘要】 |
随着信息化程度的提高,在人类社会的各个领域聚集了大量甚至是海量的数据,数据挖掘就是要从这些数据中提取有用的信息,从上世纪80年代末以来人们对数据挖掘模型、算法、系统进行了大量的研究,并取得了一定的成果,为了提高算法的效率,并行和分布式数据挖掘一直是研究的重点,但面临很多挑战,比如:数据的海量、异构、分布、计算密集;知识表达形式不够丰富;挖掘工具和环境缺乏等,网格技术的出现在一定程度上为解决这些问题提供了帮助。
Cannataro Mario提出下一代网格的研究应主要致力于为用户提供知识服务。近年来,关于在网格上提供知识服务渐渐成为了研究的热点,并取得了很多重要成果,这些项目着重于在网格上实现知识发现服务的整体架构,而对利用网格服务来实现并行分布式数据挖掘算法很少提及,要在网格上进行知识发现,就不得不涉及到数据挖掘的算法,目前对可并行性算法利用网格服务来实现研究比较少。针对这种情况,论文采用网格系统中间件实现工具包Globus Toolkit Version 4按照网格服务的方式实现并行决策树分类算法SPRINT。采用该方式有以下优点:(1)扩展性好,因为采用网格服务的方式实现,只须将算法相关... |