当前位置:主页 > 科技论文 > 软件论文 >

基于MapReduce架构的并行矩阵Apriori算法

发布时间:2020-05-26 12:35
【摘要】:传统数据挖掘关联规则Apriori算法直接移植到云计算平台,数据挖掘效率虽然有了数量级的提升,但由于需要频繁地扫描事务数据库,增加了系统I/O、内存和通信的开销。提出一种基于矩阵的并行关联规则算法Apriori_MMR。该算法结合数据划分的思想进行并行化改进,简化了生成候选项的连接步骤,仅需对事务数据库扫描两次,同时在计算过程中还能对事务进行压缩,从而进一步提高了算法的性能。通过两种算法在不同数据规模下算法性能的对比分析实验和两种算法在相同数据集不同节点数的对比实验,共同验证了Apriori_MMR的运算效率至少要比Apriori_MR高出两倍左右,且设置的支持度阈值越小,效果愈明显。
【图文】:

算法


AnrioxiM算法疏程

设计流程


1.2HadoopHadoop是一种专门用于实现大规模批处理的大数据系统,是基于当下最流行的MapReduce开源实现的,其突出的一个特点是数据规模越大(一般为TB或PB级以上),越适合使用Hadoop大数据系统来进行海量数据挖掘。文献[3]通过分布式并行处理大数据节点性能计算实验证明了降低数据传输时延,能有效地降低时延对处理结果的影响。文献[4]通过实验得出使用列存储系统能使海量数据具有更大的压缩比且更易于查询处理。文献[5,6]讨论了在同一节点上,且数据量保持不变的情况下如何来降低网络I/O的开销。文献[7]提出为优化磁盘I/O开销可考虑将数据常驻于内存这一策略作为解决方案。文献[8]提出了关联规则运用到数据挖掘实现分布式并行化处理时,事先将数据进行划分是一种很不错的方法。文献[9]采用FP-Tree的方法来查找频繁项集,该方法的优点在于只需对事务数据库扫描两次,并且可以对数据集进行压缩。文献[10]通过矩阵分解推荐算法实验证实了数据在MapReduce架构下能获得更高的加速比。2Apriori_MMR算法2.1并行化策略基于上述的理论研究基础,为进一步降低系统I/O、内存和通信的消耗,将数据划分的思想引入到Apriori_M,并与Map-Reduce计算框架结合对算法进行并行化优化(matrixMapRe-duceApriori,Apriori_MMR),改进和优化频繁项集产生的过程,高效获得所需的关联规则。矩阵可以看成是行向量的集合。根据向量的操作规则,在矩阵中只需要使用“与”操作就可以快速地产生项目集的支持频度。将D进行矩阵化处理,可以有效地减少扫描数据库的次数。以矩阵来计算事务数据库中交易记录项目集的支持频度时,仅需向D扫描两次,,从理论上来说可以极大地优化Apriori算法的并行化过程。2.2算法流程Apriori_MMR算法是基于MapRe

【相似文献】

相关期刊论文 前10条

1 张玉强;于凤全;金立峰;朱晓飞;;Apriori算法在雷达故障诊断系统中的应用研究[J];电脑知识与技术;2011年07期

2 李阳;朱宗胜;;基于优化Apriori算法的入侵检测系统模型设计[J];计算机安全;2009年11期

3 王冬秀;胡迎春;李辉;;改进的Apriori算法在股票分析中的应用研究[J];科技通报;2013年03期

4 高琰;王台华;郭帆;余敏;;应用非迭代Apriori算法检测分布式拒绝服务攻击[J];计算机应用;2011年06期

5 郑麟;;一种直接生成频繁项集的分治Apriori算法[J];计算机应用与软件;2014年04期

6 陶荣;;基于Apriori算法在学生信息管理系统中的应用与研究[J];计算机光盘软件与应用;2012年21期

7 明勇;;基于数据挖掘的Apriori算法在入侵检测中的应用[J];电脑知识与技术;2005年35期

8 肖桂艳;周满元;;Apriori算法在基于网络入侵检测系统中的应用[J];微计算机信息;2010年06期

9 吴昊;李军国;;一种改进的Apriori算法在交通信息化中的应用[J];信息化纵横;2009年08期

10 甘超;陆远;李娟;胡莹;;基于Apriori算法的设备故障诊断技术的研究[J];组合机床与自动化加工技术;2014年01期

相关会议论文 前7条

1 刘擎;刘云涛;罗翌;;关联规则挖掘Apriori算法在当代名老中医流感医案挖掘中的应用及改进探讨[A];2012中国中西医结合学会急救医学专业委员会学术年会论文集[C];2012年

2 陈波;董鹏;邵勇;;基于Apriori算法及其改进算法综述[A];中国通信学会第五届学术年会论文集[C];2008年

3 张彦;刘伟;;结合超市数据的关联规则Apriori算法浅析[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

4 杨宗波;宗容;常俊;彭广军;;入侵检测中Apriori算法的研究与改进[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

5 梁昌勇;赵艳霞;;基于RFM分析的银行信用卡客户的行为评分模型——应用自组织映射神经网络SOM和Apriori方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

6 高明;盛立;刘希玉;;关联规则挖掘中Apriori算法的一种改进[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年

7 万敏;潘笑;宾谊沅;;利用Apriori算法实现WEB的个性化服务[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

相关硕士学位论文 前10条

1 赵宏利;改进的Apriori算法在大学生心理分析中的研究[D];华中师范大学;2015年

2 王丹;基于云计算的关联规则Apriori算法的研究与实现[D];南昌大学;2015年

3 杨财英;Apriori算法及其在学生成绩分析中的应用研究[D];湖南大学;2016年

4 吴博;Apriori算法挖掘技术在WANO人因数据中的应用研究[D];南华大学;2016年

5 侯建辉;基于改进Apriori算法的名老中医治疗高血压病验案挖掘研究[D];山东中医药大学;2016年

6 王达明;基于云计算与医疗大数据的Apriori算法的优化研究[D];北京邮电大学;2015年

7 杨国英;泛在网下基于Apriori算法的移动群组的位置预测[D];南京邮电大学;2013年

8 丁磊;一种改进的Apriori算法在手机评教系统中的研究[D];华中师范大学;2014年

9 朱惠;关联规则中Apriori算法的研究与改进[D];安徽理工大学;2014年

10 王培吉;基于Apriori算法的关联规则挖掘及改进[D];内蒙古大学;2003年



本文编号:2681843

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2681843.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户45feb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com