基于Hadoop的关联规则挖掘算法分析
发布时间:2017-04-16 11:20
本文关键词:基于Hadoop的关联规则挖掘算法分析,由笔耕文化传播整理发布。
【摘要】:随着信息技术的发展和互联网领域的革新,大数据研究已经成为热点问题。关联规则在寻找数据的关联性起到了非常重要的作用,是数据挖掘中的一种重要研究方法。其核心问题是如何获取频繁集并据此找出不同项目的相关关系。Hadoop作为云计算最为核心的分布式计算框架,集高效性,可扩展性,低成本等优点于一身,已经成为大数据最佳计算模式之一。本文以经典关联规则算法Apriori和Fp-Growth为基础,在分析其Hadoop并行化运行优缺点的基础上,提出了Apriori的Hadoop并行化的改进算法。同时,将Fp-Growth的Hadoop并行化算法应用于搜索引擎。本文的主要研究内容如下:(1)对于Apriori算法在事务压缩、减少扫描次数、简化候选集生成方面进行改进。提出了以元素“0”和“1”表示事务的布尔矩阵模型,引入权值维度,压缩了相同事务的矩阵规模。动态地进行剪枝,以矩阵的“与”运算作为候选集合生成的计算方法。将改进算法结合Hadoop框架进行并行化实现,实验表明该算法适合大规模数据挖掘,具有良好的伸缩性与有效性。(2)基于FP-Growth的Hadoop并行化算法和搜索引擎的原理,对用户行为进行分析,设计出了改进后算法在搜索引擎的应用场景,实现了Fp-Growth的Hadoop并行算法对搜狗实验室的web分析日志的挖掘。实验表明满足支持度的查询词和点击链接频繁集在日志中普遍存在,并且随着Hadoop节点数的增加,算法性能将得到大幅提高。
【关键词】:数据挖掘 关联规则 Hadoop Apriori Fp-Growth
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.13
【参考文献】
中国硕士学位论文全文数据库 前1条
1 朱涛;基于FP-growth关联规则挖掘算法的研究与应用[D];南昌大学;2010年
本文关键词:基于Hadoop的关联规则挖掘算法分析,由笔耕文化传播整理发布。
,本文编号:310716
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/310716.html