分布式数据挖掘在网站日志分析中的开发与应用
发布时间:2017-12-16 18:10
本文关键词:分布式数据挖掘在网站日志分析中的开发与应用
更多相关文章: Web挖掘 个性化会话识别 D-DBDC D-FP-Growth Hadoop
【摘要】:随着互联网的快速发展,Web技术被广泛使用,上网用户增加,用户产生的数据剧增,这些数据中往往蕴藏着潜在的有价值的规律。对这些数据进行挖掘,将挖掘结果反作用于各网站,能够更加了解用户的需求,为企业带来价值。然而传统集中式数据挖掘算法不能很好地处理大数据量的Web日志挖掘,所以本文旨在将挖掘算法与Hadoop分布式平台结合,并针对Web日志挖掘主题提出改进。 本文首先对Web日志预处理进行分析,并且根据目前会话识别中的缺陷提出个性化会话分割,使不同用户采用适合其自身行为习惯的会话分割阈值,并且将预处理与Hadoop平台进行结合,加快处理的速度。由于频繁模式挖掘采用基于聚类的动态决策,所以接着实现了Hadoop平台的D-DBDC聚类算法,根据Web日志数据的特点自定义了前缀相似性度量方式,针对DBDC的局部聚类中对噪声的处理容易丢簇的现象,提出对噪声数据的处理方案,对局部调整部分提出适合Web日志挖掘主题的修改方式。最后对于频繁模式挖掘在Web日志中的应用,分析了Web日志挖掘往往具有多个感兴趣主题的特点,提出基于聚类动态决策的D-FP-Growth算法,该算法根据聚簇的数目,即用户感兴趣点的多少,动态决定采用基于水平分割的或者基于垂直分割的分布式FP-Growth算法,并且为充分利用Hadoop集群的计算能力,采用分别适用于两种方式的平衡策略。 最后对系统挖掘算法,采用多组数据进行测试,证明了个性化会话识别算法的有效性,D-DBDC算法的准确性有所提高,同时对于Web日志挖掘这一应用,D-FP-Growth算法不仅减小了分布式节点之间的重复性工作,而且能够很好得平衡各机器节点的计算量,从总体上降低了算法的平均运行时间。
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13;TP393.092
【参考文献】
中国期刊全文数据库 前7条
1 贾超;代理服务器在校园网中的应用[J];信息技术;2001年08期
2 张石磊;武装;;一种基于Hadoop云计算平台的聚类算法优化的研究[J];计算机科学;2012年S2期
3 徐嘉莉;杨洪军;赵茂娟;樊云;;一种基于位运算的频繁闭项集挖掘算法[J];计算机应用研究;2013年11期
4 王宏宇;;Hadoop平台在云计算中的应用[J];软件;2011年04期
5 袁志;;基于日志监视主动防御HTTP泛洪攻击[J];计算机系统应用;2012年05期
6 郝树魁;;Hadoop HDFS和MapReduce架构浅析[J];邮电设计技术;2012年07期
7 王瑛;;WEB数据挖掘技术及应用研究[J];时代金融;2013年35期
,本文编号:1296961
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1296961.html