| 【中文题名】 | 基于关联规则的Web日志挖掘研究与实现 |
| 【英文题名】 | Research and Design of Web Log Mining Based on Association Rule |
| 【学科专业】 | 计算机软件与理论 |
| 【论文级别】 | 硕士论文 |
| 【投稿时间】 | 2007-10-29 |
| 【中关键词】 | Web日志,Web数据挖掘,关联规则,Web日志预处理,, |
| 【英关键词】 | Web Log,Web Mining,Association Rule,Data Preprocessing, |
| 【分类导航】 | 工业技术>自动化技术、计算机技术>计算技术、计算机技术>计算机软件>程序设计、软件工程>程序设计 |
| 【论文摘要】 |
Web日志挖掘是Web数据挖掘中非常重要的一个研究领域和研究方向,通过分析和发现Web日志记录中的规律,可以挖掘出Web用户潜在的使用规律和模式,这可被广泛用于发现电子商务中的潜在客户、提高Web服务的质量和效率以及优化企业信息门户性能等领域。
本文介绍了Internet的发展状况及Web数据挖掘的产生背景,系统地阐述了数据挖掘技术与Web数据挖掘的思想、理论、技术、方法和策略,对Web日志数据挖掘过程及其中各环节的关键技术进行了深入的探讨,重点研究了Web日志挖掘的数据预处理技术和关联规则及基于关联规则的算法,并将其用于指导实际系统的构建。
在Web日志数据预处理方面,在分析比较前人已有的各种方法基础上,将统一建模语言(UML)引入到对Web日志预处理过程的建模上,使用UML对预处理的过程各步骤进行建模,设计出相关数据库表,并在此基础上给出了简明清晰的算法实现。
在关联规则及基于关联规则算法研究方面,本文分析了经典的基于关联规则的挖掘算法Apriori的特点,找出算法存在的不足,并对其进行了改进和优化,使其具有更高的效率。
在对Web日志挖掘理论和技术研究的基础上,... |
| 【论文题纲】 |
|
摘要 |
3-4 |
|
ABSTRACT |
4-8 |
|
第1章 引言 |
8-15 |
|
1.1 研究背景 |
8-12 |
|
1.1.1 Internet的发展 |
8-11 |
|
1.1.2 数据挖掘技术的产生 |
11 |
|
1.1.3 基于Web的数据挖掘 |
11-12 |
|
1.2 国内外研究现状 |
12-13 |
|
1.2.1 国外研究现状 |
12 |
|
1.2.2 国内研究现状 |
12-13 |
|
1.3 本文主要工作与创新点 |
13-14 |
|
1.4 本文的组织结构 |
14-15 |
|
第2章 Web日志挖掘综述 |
15-30 |
|
2.1 数据挖掘与KDD |
15-17 |
|
2.2 Web数据挖掘分类 |
17-19 |
|
2.2.1 Web内容挖掘 |
17-18 |
|
2.2.2 Web结构挖掘 |
18 |
|
2.2.3 Web使用挖掘 |
18-19 |
|
2.3 Web数据挖掘的主要流程 |
19 |
|
2.4 Web数据挖掘主要方法 |
19-21 |
|
2.4.1 路径分析 |
20 |
|
2.4.2 关联规则挖掘 |
20 |
|
2.4.3 序列模式挖掘 |
20 |
|
2.4.4 聚类分类 |
20-21 |
|
2.5 Web日志挖掘研究 |
21-29 |
|
2.5.1 Web日志挖掘中用到的术语和概念 |
21-22 |
|
2.5.2 Web系统体系结构 |
22-24 |
|
2.5.3 Web跟踪机制 |
24-28 |
|
2.5.4 Web日志 |
28 |
|
2.5.5 Web日志挖掘过程 |
28-29 |
|
2.6 本章小结 |
29-30 |
|
第3章 Web日志预处理 |
30-49 |
|
3.1 Web日志预处理概述 |
30-31 |
|
3.2 Web日志 |
31-35 |
|
3.2.1 Web服务器访问日志 |
32-33 |
|
3.2.2 Web服务器代理日志 |
33 |
|
3.2.3 Web服务器引用日志 |
33-35 |
|
3.3 Web日志预处理技术 |
35-48 |
|
3.3.1 数据清洗 |
36-38 |
|
3.3.2 用户识别 |
38-41 |
|
3.3.3 会话识别 |
41-43 |
|
3.3.4 路径补充 |
43-45 |
|
3.3.5 事务识别 |
45-48 |
|
3.4 本章小结 |
48-49 |
|
第4章 Web日志挖掘算法研究 |
49-75 |
|
4.1 Web数据挖掘算法概述 |
49 |
|
4.2 关联规则 |
49-53 |
|
4.2.1 关联规则相关定义 |
50-52 |
|
4.2.2 基于关联规则的挖掘算法 |
52-53 |
|
4.3 基于关联规则的经典挖掘算法:Apriori算法 |
53-60 |
|
4.3.1 Apriori性质 |
54 |
|
4.3.2 Apriori算法基本思想 |
54-55 |
|
4.3.3 Apriori算法实现 |
55-60 |
|
4.4 Apriori算法的改进 |
60-72 |
|
4.4.1 Apriori算法的不足 |
60-61 |
|
4.4.2 Apriori算法的改进 |
61-70 |
|
4.4.3 改进算法的性能评估 |
70-72 |
|
4.5 关联规则的产生 |
72-74 |
|
4.6 本章小结 |
74-75 |
|
第5章 Web日志挖掘系统WebLogMiner设计与实现 |
75-87 |
|
5.1 WebLogMiner系统的设计 |
75-76 |
|
5.1.1 设计思想 |
75-76 |
|
5.1.2 WebLogMiner系统结构 |
76 |
|
5.2 WebLogMiner的实现 |
76-85 |
|
5.2.1 开发环境的选择 |
76-79 |
|
5.2.2 用户界面 |
79-80 |
|
5.2.3 数据采集与预处理模块 |
80-84 |
|
5.2.4 Web日志挖掘模块 |
84 |
|
5.2.5 挖掘结果评估与显示模块 |
84-85 |
|
5.3 实验结果与分析 |
85-86 |
|
5.4 本章小结 |
86-87 |
|
第6章 结论与展望 |
87-89 |
|
6.1 结论 |
87 |
|
6.2 展望 |
87-89 |
|
致谢 |
89-90 |
|
参考文献 |
90-94 |
|
攻读学位期间的研究成果 |
94 |
|
| 【DOI】 | LunWen.ID:2.2008.362631 |