| 【英关键词】 | Discretization FP tree,Frequent items,Dict-Tree,Parallel mining,Incremental mining,Multi-indice association,Predicting, |
| 【论文摘要】 |
本论文研究工作是针对中国国家电力集团总公司信息管理系统中信息分析和预测的需要而进行的,主要研究内容和工作成果如下:
(1)为进行多指标关联分析和预测,须将连续数据离散化,本论文分析了几种最常见的连续数据离散化方法,采用了基于密度分布函数聚类的属性离散化方法对国电集团信息系统的多指标数据进行离散。随着业务数据的增加,数据挖掘工作难以在单台机器上进行,为此,本论文在分析目前的几种并行挖掘方法后,提出一种FP树的并行挖掘方法——FPTDP。
(2)由于新的业务数据不断加入原数据集,必须考虑利用原数据集经挖掘后已经得到的结果,因此,增量挖掘工作成为本论文的研究内容之一,由于传统的增量挖掘方法,在最坏情况下,需要重新扫描原数据集DB,影响挖掘的性能,本文在分析传统的增量挖掘方法的基础上,提出了基于Dict-Tree树的增量挖掘方法——DTARIDMA,并给出其相应的并行挖掘方法。
(3)本论文通过实验证明了FPTDP算法是有效的,可以减轻挖掘工作对单台处理机性能的要求。通过实验比较了DTARIDMA算法与传统增量挖掘方法的性能,并针对国电集团信息的多指标进行了关联规则挖掘,实践证明,D... |