分布式数据挖掘在网站日志分析中的开发与应用

发布时间：2017-12-16 18:10

本文关键词：分布式数据挖掘在网站日志分析中的开发与应用

【摘要】：随着互联网的快速发展,Web技术被广泛使用,上网用户增加,用户产生的数据剧增,这些数据中往往蕴藏着潜在的有价值的规律。对这些数据进行挖掘,将挖掘结果反作用于各网站,能够更加了解用户的需求,为企业带来价值。然而传统集中式数据挖掘算法不能很好地处理大数据量的Web日志挖掘,所以本文旨在将挖掘算法与Hadoop分布式平台结合,并针对Web日志挖掘主题提出改进。本文首先对Web日志预处理进行分析,并且根据目前会话识别中的缺陷提出个性化会话分割,使不同用户采用适合其自身行为习惯的会话分割阈值,并且将预处理与Hadoop平台进行结合,加快处理的速度。由于频繁模式挖掘采用基于聚类的动态决策,所以接着实现了Hadoop平台的D-DBDC聚类算法,根据Web日志数据的特点自定义了前缀相似性度量方式,针对DBDC的局部聚类中对噪声的处理容易丢簇的现象,提出对噪声数据的处理方案,对局部调整部分提出适合Web日志挖掘主题的修改方式。最后对于频繁模式挖掘在Web日志中的应用,分析了Web日志挖掘往往具有多个感兴趣主题的特点,提出基于聚类动态决策的D-FP-Growth算法,该算法根据聚簇的数目,即用户感兴趣点的多少,动态决定采用基于水平分割的或者基于垂直分割的分布式FP-Growth算法,并且为充分利用Hadoop集群的计算能力,采用分别适用于两种方式的平衡策略。最后对系统挖掘算法,采用多组数据进行测试,证明了个性化会话识别算法的有效性,D-DBDC算法的准确性有所提高,同时对于Web日志挖掘这一应用,D-FP-Growth算法不仅减小了分布式节点之间的重复性工作,而且能够很好得平衡各机器节点的计算量,从总体上降低了算法的平均运行时间。
【学位授予单位】：北京邮电大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP311.13;TP393.092

【参考文献】

中国期刊全文数据库前7条

1 贾超;代理服务器在校园网中的应用[J];信息技术;2001年08期

2 张石磊;武装;;一种基于Hadoop云计算平台的聚类算法优化的研究[J];计算机科学;2012年S2期

3 徐嘉莉;杨洪军;赵茂娟;樊云;;一种基于位运算的频繁闭项集挖掘算法[J];计算机应用研究;2013年11期

4 王宏宇;;Hadoop平台在云计算中的应用[J];软件;2011年04期

5 袁志;;基于日志监视主动防御HTTP泛洪攻击[J];计算机系统应用;2012年05期

6 郝树魁;;Hadoop HDFS和MapReduce架构浅析[J];邮电设计技术;2012年07期

7 王瑛;;WEB数据挖掘技术及应用研究[J];时代金融;2013年35期

，

本文编号：1296961

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/1296961.html

上一篇：基于支持向量回归机的计算机网络安全评价研究
下一篇：智能交通与智慧城市

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|