基于Spark的Apriori算法的改进
本文选题:Apriori + Spark ; 参考:《东北师大学报(自然科学版)》2016年01期
【摘要】:基于Spark大数据框架,将传统Apriori算法进行并行化处理,提出了一种改进的并行化AMRDD算法,使Apriori算法能够适用于大数据关联规则的挖掘.该算法利用Spark基于内存计算的抽象对象存储频繁项集,通过引入矩阵概念减少扫描事务数据库的次数,应用局部剪枝和全局剪枝方法缩减生成候选频繁项集的数量.通过搭建Spark平台实现该算法,并与传统Apriori算法和基于Hadoop的Apriori算法进行性能上的比较.结果表明,该算法能够较大程度地提高大数据关联规则挖掘的效率.
[Abstract]:Based on the Spark big data framework, the traditional Apriori algorithm is parallelized, and an improved parallel AMRDD algorithm is proposed, which enables the Apriori algorithm to be applied to the mining of big data association rules. The algorithm uses Spark memory-based abstract objects to store frequent itemsets, reduces the number of scanned transaction databases by introducing the matrix concept, and reduces the number of candidate frequent itemsets by using local pruning and global pruning methods. The algorithm is implemented on the Spark platform and compared with the traditional Apriori algorithm and the Apriori algorithm based on Hadoop. The results show that the algorithm can greatly improve the efficiency of big data association rule mining.
【作者单位】: 长春工业大学计算机科学与工程学院;
【基金】:国家自然科学基金资助项目(61472049) 吉林省自然科学基金资助项目(20130101055JC) 吉林省科技发展计划项目(20150204005GX) 长春市重大科技攻关计划项目(14KG082)
【分类号】:TP311.13
【参考文献】
相关期刊论文 前2条
1 宋天勇;赵辉;李万龙;王璐;田世元;;引入自检策略的进化K-means算法[J];东北师大学报(自然科学版);2014年03期
2 冯勇;尹洁娜;徐红艳;;基于垂直频繁模式树带有负载均衡的分布关联规则挖掘算法[J];计算机应用;2014年02期
【共引文献】
相关硕士学位论文 前1条
1 尹洁娜;基于元数据集成的分布式垂直频繁模式挖掘方法研究[D];辽宁大学;2014年
【二级参考文献】
相关期刊论文 前10条
1 牛琨;张舒博;陈俊亮;;融合网格密度的聚类中心初始化方案[J];北京邮电大学学报;2007年02期
2 陶新民;徐晶;杨立标;刘玉;;一种改进的粒子群和K均值混合聚类算法[J];电子与信息学报;2010年01期
3 赖玉霞;刘建平;;K-means算法的初始聚类中心的优化[J];计算机工程与应用;2008年10期
4 韩凌波;王强;蒋正锋;郝志强;;一种改进的k-means初始聚类中心选取算法[J];计算机工程与应用;2010年17期
5 张雪凤;张桂珍;刘鹏;;基于聚类准则函数的改进K-means算法[J];计算机工程与应用;2011年11期
6 陈敏;李徽翡;;集群系统中的FP-Growth并行算法[J];计算机工程;2009年20期
7 何波;;基于频繁模式树的分布式关联规则挖掘算法[J];控制与决策;2012年04期
8 徐杰;李云;刘博;张晓斌;;基于垂直FP树的并行频繁项集挖掘[J];计算机与数字工程;2012年10期
9 王留正;何振峰;;基于全局性分裂算子的进化K-means算法[J];计算机应用;2012年11期
10 仝雪姣;孟凡荣;王志晓;;对k-means初始聚类中心的优化[J];计算机工程与设计;2011年08期
【相似文献】
相关期刊论文 前10条
1 邹汪平;;一种基于网络安全控制的蜂群算法应用研究[J];吉林师范大学学报(自然科学版);2013年04期
2 李向伟;曹博;;时间参数在HITS算法中的应用及改进[J];兰州工业高等专科学校学报;2006年02期
3 吴涛;彭笃学;;一种改进的直线段裁剪算法[J];湛江师范学院学报;2008年03期
4 张瑞子;南琳;胡琨元;田景贺;;基于EPC Class-1 Gen-2标准的防冲突算法与改进[J];计算机工程;2009年02期
5 黄超;周宁;倪佑生;;基于蚁群算法的攻击图分析[J];计算机工程;2009年18期
6 秦永彬;许道云;;警示传播算法的原理分析及算法改进[J];计算机工程与应用;2010年19期
7 郭毅可;韩锐;;云计算中的弹性算法:概要和展望[J];上海大学学报(自然科学版);2013年01期
8 牛玉静;唐棣;;双步圆的反走样生成算法[J];计算机工程与应用;2010年23期
9 肖璞;;XML索引更新算法的改进[J];南京工程学院学报(自然科学版);2010年03期
10 周骏;陈鸣;张佳明;;两类频繁项算法在网络流上的适用性评估[J];计算机工程;2011年16期
相关会议论文 前10条
1 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会——2004年学术年会论文集[C];2004年
2 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会2004年学术年会论文集[C];2004年
3 符丽锦;覃华;邓海;孙欣;;一种改进的Apriori算法的研究[A];广西计算机学会2012年学术年会论文集[C];2012年
4 王东锋;王军民;陈英武;;模糊定性仿真理论研究与算法实现[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年
5 赵唯;;晶粒度评级的改进算法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
6 刘启文;;可扩展的图形学算法演示系统的研究[A];’2004计算机应用技术交流会议论文集[C];2004年
7 佘智;蒋泰;朱延生;;基于Type C协议的防冲突改进算法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
8 朱绍文;赵培;朱秋云;;基于pSPADE并行挖掘序列算法的研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年
9 杨霞;;新的基于启发式蚁群算法的QoS路由算法[A];广西计算机学会2009年年会论文集[C];2009年
10 陈黎飞;姜青山;董槐林;;基于图形轮廓的快速聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
相关博士学位论文 前10条
1 钟永腾;基于近场MUSIC算法的复合材料结构健康监测研究[D];南京航空航天大学;2014年
2 刘燕;入侵杂草优化算法在阵列天线综合中的应用[D];西安电子科技大学;2015年
3 单美静;求解非线性实代数系统的混合算法研究[D];华东师范大学;2008年
4 邱剑锋;人工蜂群算法的改进方法与收敛性理论的研究[D];安徽大学;2014年
5 潘磊;若干社区发现算法研究[D];南京大学;2014年
6 陈俊波;频繁闭合项集挖掘算法及应用研究[D];浙江大学;2009年
7 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年
8 范洪博;快速精确字符串匹配算法研究[D];哈尔滨工程大学;2011年
9 寇晓丽;群智能算法及其应用研究[D];西安电子科技大学;2009年
10 刘维;生物序列模式挖掘与识别算法的研究[D];南京航空航天大学;2010年
相关硕士学位论文 前10条
1 安世勇;命题逻辑中随机3-SAT问题算法研究[D];西南交通大学;2015年
2 毕晓庆;油气探矿权竞争性出让系统设计与实现[D];中国地质大学(北京);2015年
3 王明明;铁路大机与线路固定设施间距检测算法研究[D];西南交通大学;2015年
4 李静;基于视频图像序列的运动目标检测与跟踪算法研究[D];宁夏大学;2015年
5 刘贝玲;基于天地图的租房平台开发及其关键技术研究[D];西南交通大学;2015年
6 曹海锋;IDS中串匹配臭算法并行优化研究[D];西安建筑科技大学;2015年
7 周攀;基于蚁群算法的山区高速铁路隧道火灾应急疏散最优路径研究[D];西南交通大学;2015年
8 张路奇;基于改进蚁群算法的WSN路由协议的研究[D];中国地质大学(北京);2015年
9 王晓晨;入侵杂草优化算法的应用与改进[D];长安大学;2015年
10 信琴琴;手势控制和识别算法研究[D];闽南师范大学;2015年
,本文编号:2098023
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2098023.html