基于Spark的Apriori并行算法优化实现

发布时间：2017-07-16 03:17

本文关键词：基于Spark的Apriori并行算法优化实现

【摘要】：针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率.
【作者单位】：四川师范大学计算机科学学院;中国科学院计算技术研究所;四川省计算机研究院;
【关键词】： Spark 并行化 数据挖掘 关联规则 Apriori
【基金】：国家自然科学基金资助项目(61373162) 四川省科技支撑项目(2014GZ007)
【分类号】：TP311.13
【正文快照】： 0引言关联规则挖掘是用来描述事物之间的联系和挖掘事物之间的相关性,它是在数据库中搜索两个项目之间存在的显示或者隐式关系,有助于管理和决策.Apriori算法是最为经典的关联规则挖掘算法,该算法的核心是生成最大项目集,通过迭代方式逐层搜索频繁项集,直至没有更大项目集生成

【相似文献】

中国期刊全文数据库前10条

1 朱惠;;关联规则中Apriori算法的研究与改进[J];电脑知识与技术;2014年12期

2 马占欣;黄维通;陆玉昌;;相关度计算方法存在的问题及修正[J];计算机工程;2007年11期

3 司徒浩臻;数据挖掘技术在图书馆信息服务中的应用[J];现代图书情报技术;2005年10期

4 徐冬,王翰虎,陈梅;图像挖掘技术在医学CT图像上的应用[J];海南师范学院学报(自然科学版);2004年04期

5 刘雨露;;基于Web使用挖掘的学生思想动态分析[J];重庆三峡学院学报;2007年03期

6 彭玉青,张红梅,何华,顾军华;数据挖掘技术及其在教学中的应用[J];河北科技大学学报;2001年04期

7 郑涛;;数据挖掘在智能计算机辅助教学中的应用[J];中国人民公安大学学报(自然科学版);2008年02期

8 吴志勇;吴跃;;数据挖掘在电信业中的应用研究[J];计算机应用;2005年S1期

9 刘海泉;姚全珠;;Web使用挖掘在电子商务中的应用研究[J];计算机工程;2006年07期

10 方忠进;夏志华;周舒;;基于关联规则挖掘的智能云防护技术研究[J];通信技术;2014年08期

中国硕士学位论文全文数据库前3条

1 万川南;几种常用数据挖掘算法的应用案例与分析[D];景德镇陶瓷学院;2015年

2 孙磊;基于MVC模式的爱读书网上售书系统的设计与实现[D];黑龙江大学;2015年

3 李世莲;基于MVC模式的网上售书系统的设计与实现[D];北京工业大学;2015年

，

本文编号：546895

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/546895.html

上一篇：集群体系知识及其创造机制分析——基于大连软件园的案例研究
下一篇：多模态特征选择及其在脑疾病分类中的应用研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|