基于Hadoop平台的并行DHP数据分析方法
发布时间:2017-12-19 04:35
本文关键词:基于Hadoop平台的并行DHP数据分析方法
更多相关文章: Hadoop Hash表 Apriori算法 直接哈希修剪算法
【摘要】:由候选项集C_2生成频繁2-项集L_2是关联规则Apriori算法的一个瓶颈。直接哈希修剪(DHP)算法利用一个生成的Hash表H_2删减C_2中无用的候选项集,以此提高L_2的生成效率。但传统DHP算法是一个串行算法,不能有效处理较大规模数据。针对这一问题,提出DHP的并行化算法——H_DHP。首先,对DHP算法并行化策略的可行性进行了理论分析与证明;其次,基于Hadoop平台,把Hash表H_2的生成以及频繁项集L_1、L_3~L_k的生成方法进行了并行实现,并借助Hbase数据库生成关联规则。仿真实验结果表明:与传统DHP算法相比,H_DHP算法在数据的处理时间效率、处理数据集的规模大小,以及加速比和可扩展性等方面都有较好的性能。
【作者单位】: 四川师范大学计算机科学学院;四川师大科技园发展有限公司;
【基金】:国家科技支撑计划项目(2014BAH11F01,2014BAH11F02) 四川省科技支撑计划项目(15GZ0079)~~
【分类号】:TP311.13
【正文快照】: 0引言自从著名的关联规则Apriori算法[1]被提出以来,该算法日益被人们接受并不断完善[2-3],它已在个性化推荐系统[4]、商业领域[5]、网络安全[6]、社会管理[7]等领域取得了成功应用。但是,传统Apriori算法在生成关联规则算法时,面临的瓶颈之一是遍历数据库由候选2-项集C2生成
【相似文献】
中国期刊全文数据库 前10条
1 王云岚,李增智,屈科文;基于候选项集个数上阶的增量式关联规则更新算法[J];电子学报;2004年05期
2 刘晓玲;李玉忱;;一种不产生候选项集的关联规则挖掘算法[J];山东师范大学学报(自然科学版);2006年01期
3 陆楠,王U,
本文编号:1306933
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1306933.html