当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop的多维关联规则挖掘算法研究及应用

发布时间:2021-07-08 19:09
  传统的Apriori算法要多次扫描数据集,随着数据量的快速增长,传统的Apriori算法已经不能很好地适用于大数据分析,针对该情况设计了IPApriori算法。首先通过剪枝策略设计了一种适用于多维数据的IApriori算法,再将IApriori算法与Hadoop分布式框架相结合,实现了多维关联规则挖掘算法的并行化。将IPApriori算法运用到手机用户行为预测关联分析中,分析影响手机用户行为的一些主要因素,挖掘出手机用户行为与年龄维度、性别维度、时间维度、地点维度和手机品牌维度属性之间可能存在的某种关联。最后通过实验证明,算法的并行化和建立结构的方法可以降低系统的I/O负荷,提高算法的执行效率。 

【文章来源】:计算机工程与科学. 2019,41(12)北大核心CSCD

【文章页数】:7 页

【部分图文】:

基于Hadoop的多维关联规则挖掘算法研究及应用


IApriori算法并行化流程图

多维,数据模型,维度表


原始数据经过预处理后按照多维数据模型的标准分为维度表和事实表。从年龄、性别、手机品牌、所在地区域、使用时间、APP类别6个维度表和1个事实表来分解原始数据。按照本文实验数据的维度,可以构造1个6维空间,手机用户行为分析事件中每个维各取1个固定的属性值,就可以得到1个准确的空间中的点(方格),这里每个点或方格都会存储与其对应的各属性的值和同时出现的次数。多维数据模型如图2所示。4.3实验结果分析

事务,算法,效率,时间效率


首先测试了IApriori算法、基于Hadoop平台改进的并行IApriori算法和基于Hadoop平台的DG-Apriori算法在最小支持度为10,事务数量区间在20 000条~160 000条的不同事务量下,算法的执行效率,实验结果如图3所示。从图3可以看出,无论事务数量怎样变化,在3种算法中IPApriori算法的运行时间都是最短,其时间效率性能是最好的。这说明本文对Apriori算法的改进是有效性的。

【参考文献】:
期刊论文
[1]大数据时代下关联规则兴趣度挖掘在就业分析中的应用[J]. 李佐军.  软件工程. 2018(11)
[2]基于Hadoop的FP-Growth关联规则并行改进算法[J]. 厍向阳,张玲.  计算机应用研究. 2018(01)
[3]公共服务标准化的大数据视角[J]. 阴江烽.  中国质量万里行. 2016(08)
[4]关联规则挖掘综述[J]. 崔妍,包志强.  计算机应用研究. 2016(02)
[5]基于Hadoop生态系统的大数据解决方案综述[J]. 陈吉荣,乐嘉锦.  计算机工程与科学. 2013(10)
[6]高置信度关联规则的挖掘[J]. 周贤善,杜友福,邵世煌,余光柱.  计算机工程与应用. 2010(24)



本文编号:3272161

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3272161.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0a02f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com