基于Hadoop的关联规则挖掘算法分析

发布时间：2017-04-16 11:20

本文关键词：基于Hadoop的关联规则挖掘算法分析，由笔耕文化传播整理发布。

【摘要】：随着信息技术的发展和互联网领域的革新,大数据研究已经成为热点问题。关联规则在寻找数据的关联性起到了非常重要的作用,是数据挖掘中的一种重要研究方法。其核心问题是如何获取频繁集并据此找出不同项目的相关关系。Hadoop作为云计算最为核心的分布式计算框架,集高效性,可扩展性,低成本等优点于一身,已经成为大数据最佳计算模式之一。本文以经典关联规则算法Apriori和Fp-Growth为基础,在分析其Hadoop并行化运行优缺点的基础上,提出了Apriori的Hadoop并行化的改进算法。同时,将Fp-Growth的Hadoop并行化算法应用于搜索引擎。本文的主要研究内容如下:(1)对于Apriori算法在事务压缩、减少扫描次数、简化候选集生成方面进行改进。提出了以元素“0”和“1”表示事务的布尔矩阵模型,引入权值维度,压缩了相同事务的矩阵规模。动态地进行剪枝,以矩阵的“与”运算作为候选集合生成的计算方法。将改进算法结合Hadoop框架进行并行化实现,实验表明该算法适合大规模数据挖掘,具有良好的伸缩性与有效性。(2)基于FP-Growth的Hadoop并行化算法和搜索引擎的原理,对用户行为进行分析,设计出了改进后算法在搜索引擎的应用场景,实现了Fp-Growth的Hadoop并行算法对搜狗实验室的web分析日志的挖掘。实验表明满足支持度的查询词和点击链接频繁集在日志中普遍存在,并且随着Hadoop节点数的增加,算法性能将得到大幅提高。
【关键词】：数据挖掘 关联规则 Hadoop Apriori Fp-Growth
【学位授予单位】：电子科技大学
【学位级别】：硕士
【学位授予年份】：2015
【分类号】：TP311.13

【参考文献】

中国硕士学位论文全文数据库前1条

1 朱涛;基于FP-growth关联规则挖掘算法的研究与应用[D];南昌大学;2010年

本文关键词：基于Hadoop的关联规则挖掘算法分析，由笔耕文化传播整理发布。

，

本文编号：310716

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/310716.html

上一篇：基于隐变量模型的监督式哈希算法
下一篇：基于搜索引擎数据的手足口病监测

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|