大规模网站日志的并行分析技术研究

发布时间：2017-08-01 11:25

本文关键词：大规模网站日志的并行分析技术研究

更多相关文章： Web日志 事务识别 频繁模式 并行化

【摘要】：通过Web日志分析挖掘用户的行为模式和访问意图,广泛应用于网站的页面推荐和链接结构优化。随着日志数据规模的增长,日志分析的可扩展性技术研究成为日志分析的研究方向。频繁模式挖掘是日志分析的基础应用,本文侧重研究集合频繁模式和序列频繁模式挖掘的可扩展性技术方法,分别通过基于磁盘的MapReduce平台和基于内存的Spark平台实现海量日志频繁模式的并行挖据,解决日志数据的分割和并行挖掘的负载均衡,以及分布式环境下大规模候选数据的支持度计数等问题,具体研究内容包括：(1)针对Web日志数据预处理的关键阶段—事务识别,提出一种基于候选路径的事务识别算法,主要思想是用空间换时间,与基于用户访问树的算法相比,将对日志数据的两次遍历降为一次,节省了遍历用户访问树的时间开销。(2)研究基于压缩结构FP-Tree的日志集合频繁模式并行挖掘,提出一种近似负载均衡的并行FP-Growth算法,利用item的最大前缀路径长度的上界来衡量挖掘item的条件模式树的工作量,工作量的近似值用于负载分组,所有计算节点根据分组结果并行地进行数据库的划分。与完全负载均衡的并行FP-Growth算法相比,无需构建全局FP-Tree,消除了数据划分过程中的单点局限,兼顾了负载的计算分配和整个计算过程的负载均衡。(3)研究日志序列频繁模式的并行挖掘,提出一种基于Spark的并行AprioriAll算法。首先,迭代过程中的数据扫描可以直接在内存中的RDD上进行,不用去扫描硬盘。其次,计算过程中的中间结果也可以直接持久化到RDD,下一步的计算可以直接从内存中读取数据。最后,对于分布式环境下大规模候选数据的支持度计数问题,提出了基于reduce端join的数据划分方案。与基于MapReduce的并行AprioriAll算法相比,整个计算过程节省了大量的磁盘IO和数据Shuffle。(4)最后,通过实验验证,基于候选的事务识别方法可以有效应对大规模日志的事务识别,近似负载均衡的并行FP-Growth算法拥有比较好的性能优势,且稳定性更好,基于Spark的并行AprioriAll算法拥有更好的性能和扩展性。
【关键词】：Web日志 事务识别 频繁模式 并行化
【学位授予单位】：东南大学
【学位级别】：硕士
【学位授予年份】：2016
【分类号】：TP311.13;TP393.092
【目录】：

摘要5-6
Abstract6-9
第一章绪论9-13
1.1 研究背景9-10
1.2 研究现状10-11
1.2.1 Web日志挖掘的研究现状10
1.2.2 并行计算平台的研究现状10-11
1.3 研究内容11-12
1.4 论文组织结构12-13
第二章相关技术与研究13-24
2.1 Web日志挖掘的相关理论13-15
2.1.1 数据挖掘13
2.1.2 Web挖掘13-14
2.1.3 Web日志挖掘的过程14-15
2.1.4 Web日志挖掘的应用15
2.2 并行计算平台的相关技术15-23
2.2.1 Hadoop计算平台16-20
2.2.2 Spark计算平台20-23
2.2.3 Spark和Hadoop的关系23
2.3 本章小结23-24
第三章 Web日志数据预处理24-35
3.1 引言24
3.2 Web日志24-25
3.3 Web日志预处理流程25-28
3.3.1 数据清洗26-27
3.3.2 用户识别27
3.3.3 会话识别27-28
3.3.4 路径完善28
3.4 事务识别28-33
3.4.1 事务识别的改进29-32
3.4.2 实验分析32-33
3.5 基于MapReduce的日志预处理33-34
3.6 本章小结34-35
第四章集合频繁模式挖掘35-49
4.1 引言35
4.2 集合频繁模式挖掘算法35-38
4.3 近似负载均衡的并行FP-Growth算法38-44
4.3.1 数据分区的依据38-39
4.3.2 负载度量和分组39-41
4.3.3 事务数据库的划分41-42
4.3.4 不同负载均衡策略的比较42-44
4.4 基于MapReduce的近似负载均衡的并行FP-Growth算法44-46
4.5 实验分析46-48
4.6 Web日志集合频繁模式的应用48
4.7 本章小结48-49
第五章序列频繁模式挖掘49-58
5.1 引言49
5.2 序列频繁模式挖掘算法49-50
5.3 AprioriAll算法的并行化50-55
5.3.1 AprioriAll算法的并行化分析50-52
5.3.2 基于Spark的并行AprioriAll算法52-54
5.3.3 分布式环境下的支持度计数54-55
5.4 实验分析55-57
5.5 Web日志序列频繁模式的应用57
5.6 本章小结57-58
第六章总结与展望58-59
6.1 总结58
6.2 未来工作58-59
致谢59-60
参考文献60-63
硕士期间发表的论文63

【参考文献】

中国期刊全文数据库前3条

1 于飞;丁华福;姜伦;;Web日志挖掘中数据预处理技术的研究[J];计算机技术与发展;2010年05期

2 曾志勇;杨呈智;陶冶;;负载均衡的FP-growth并行算法研究[J];计算机工程与应用;2010年04期

3 赵伟,何丕廉,陈霞,谢振亮;Web日志挖掘中的数据预处理技术研究[J];计算机应用;2003年05期

，

本文编号：604013

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/604013.html

上一篇：支持协作的强制访问控制模型
下一篇：非线性动力系统个体的脉冲协调控制

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|