| 【中文题名】 | 序列模式发现模型的研究 |
| 【英文题名】 | Research on Models of Sequential Patterns Mining |
| 【学科专业】 | 计算机应用技术 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-8-3 |
| 【中关键词】 | 数据挖掘,序列模式,频繁序列图,序列聚类,, |
| 【英关键词】 | Data Mining,sequential pattern,frequent sequence graph,sequence clustering, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>自动化基础理论>人工智能理论>专家系统、知识工程> |
| 【论文摘要】 |
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究课题。本文针对目前序列模式发现研究中的一些问题展开研究,主要研究工作如下:
(1)详细讨论了序列模式的基本模型以及经典的发现方法,展现了序列模式发现研究领域的应用前景及所面临的挑战。
(2)提出了以图结构表示序列数据库的模型,并在此基础上提出了一种基于图结构发现序列模式的新算法GBSPM。传统的算法需要多次扫描数据库,I/O开销大,导致时间性能不佳。本文提出一种图结构模型用于表示数据库中的序列信息,仅需扫描一次数据库,即可将与挖掘任务相关的信息映射在图中。基于这一结构的序列模式发现算法GBSPM克服了传统方法中反复扫描原始数据库的弊端,又可以充分利用图中表示的项目之间次序关系,提高了频繁序列的生成效率,更能方便地发现带有时间约束的序列模式,从而提高挖掘的质量和效率。实验证明,该算法较传统的序列模式发现算法在时间上具有优越性。
(3)提出了一种利用已发现序列模式对数据库中的客户序列进行聚类的方法。该方法利用发现的序列模式... |
| 【论文题纲】 |
|
摘要 |
5-6 |
|
ABSTRACT |
6-12 |
|
第一章 绪论 |
12-23 |
|
1.1 KDD和数据挖掘 |
12-20 |
|
1.1.1 问题的提出 |
12-14 |
|
1.1.2 KDD定义和过程 |
14-16 |
|
1.1.3 数据挖掘的概念和任务 |
16-17 |
|
1.1.4 数据挖掘和相关技术的比较 |
17-19 |
|
1.1.5 数据挖掘应用热点 |
19-20 |
|
1.2 数据库中的序列模式 |
20-22 |
|
1.2.1 序列模式发现提出 |
20-21 |
|
1.2.2 序列模式发现研究概况 |
21-22 |
|
1.3 本文的主要内容及组织 |
22-23 |
|
第二章 序列模式发现研究概述 |
23-36 |
|
2.1 相关研究 |
23-25 |
|
2.1.1 关联规则发现 |
23-25 |
|
2.1.2 关联规则与序列模式的比较 |
25 |
|
2.2 序列模式发现的形式化描述 |
25-28 |
|
2.2.1 数据源格式 |
25-27 |
|
2.2.2 形式化描述 |
27-28 |
|
2.3 序列模式发现经典算法 |
28-35 |
|
2.3.1 AprioriAll算法 |
28-31 |
|
2.3.2 GSP算法 |
31-33 |
|
2.3.2.1 基本序列模型的局限性 |
31 |
|
2.3.2.2 泛化序列模式 |
31-32 |
|
2.3.2.3 GSP算法 |
32-33 |
|
2.3.3 PrefixSpan算法 |
33-35 |
|
2.4 小结 |
35-36 |
|
第三章 基于图结构的序列模式发现研究 |
36-45 |
|
3.1 引言 |
36-37 |
|
3.2 GBSPM算法 |
37-41 |
|
3.2.1 面向序列模式挖掘的图结构 |
37-39 |
|
3.2.2 算法描述 |
39-40 |
|
3.2.3 带时间约束的序列模式发现 |
40-41 |
|
3.3 实验 |
41-44 |
|
3.3.1 实验数据 |
41-42 |
|
3.3.2 实验结果 |
42-44 |
|
3.4 小结 |
44-45 |
|
第四章 利用序列模式对客户序列进行聚类的研究 |
45-55 |
|
4.1 引言 |
45-46 |
|
4.2 相关研究 |
46-49 |
|
4.2.1 聚类分析 |
46-48 |
|
4.2.2 交易数据库中的聚类研究 |
48-49 |
|
4.3 序列聚类算法SPSC |
49-51 |
|
4.3.1 变换阶段 |
49-50 |
|
4.3.2 聚类阶段 |
50-51 |
|
4.3.2.1 相似度函数 |
50 |
|
4.3.2.2 簇的平均值 |
50-51 |
|
4.4 分析与实验 |
51-53 |
|
4.4.1 聚类效果分析 |
52 |
|
4.4.2 聚类效率实验 |
52-53 |
|
4.5 小结 |
53-55 |
|
第五章 结束语 |
55-57 |
|
5.1 工作总结 |
55 |
|
5.2 工作展望 |
55-57 |
|
参考文献 |
57-62 |
|
附录一 研究生期间主要科研工作及成果 |
62-63 |
|
附录二 部分实验数据和实验结果 |
63-67 |
|
| 【DOI】 | LunWen.ID:2.2008.388773 |