当前位置:主页 > 科技论文 > 软件论文 >

基于Hadoop的关联规则挖掘算法研究——以Apriori算法为例

发布时间:2018-12-29 07:39
【摘要】:为了解决传统关联规则挖掘算法在挖掘效率、算法扩展性等方面无法适应大数据挖掘需求的问题,以经典的关联规则挖掘算法—Apriori算法为例,首先基于Hadoop平台和MapReduce编程模型,实现算法的并行化。在此基础上,基于事务缩减的思想对算法进行优化,进一步提高算法的挖掘效率。搭建Hadoop集群环境,对算法的挖掘结果和挖掘效率进行实验。通过并行挖掘结果验证、串行版与并行版效率对比、挖掘时间与节点数目的变化关系、挖掘时间与数据量的变化关系4组实验,结果表明:文中实现的Apriori算法不仅能够准确挖掘频繁项集,而且比传统串行算法具有更高的挖掘性能和可扩展性。该算法能够更好地适应大数据集的挖掘要求,能够实现从大规模数据集中高效挖掘频繁项集和关联规则。
[Abstract]:In order to solve the problem that the traditional association rules mining algorithm can not adapt to big data mining demand in mining efficiency and algorithm expansibility, taking the classical association rule mining algorithm-Apriori algorithm as an example, firstly, it is based on Hadoop platform and MapReduce programming model. The parallel algorithm is realized. On this basis, the algorithm is optimized based on the idea of transaction reduction to further improve the efficiency of the algorithm. The Hadoop cluster environment is built and the mining results and efficiency of the algorithm are tested. Through the verification of parallel mining results, the efficiency of serial version and parallel version is compared, the relationship between mining time and the number of nodes, and the relationship between time and data are explored in four groups of experiments. The results show that the proposed Apriori algorithm not only can mine the frequent itemsets accurately, but also has higher mining performance and scalability than the traditional serial algorithms. The algorithm can better meet the mining requirements of big data sets and can efficiently mine frequent itemsets and association rules from large-scale data sets.
【作者单位】: 南京大学信息管理学院;
【基金】:国家自科基金面上项目(71473114)
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 邹汪平;;一种基于网络安全控制的蜂群算法应用研究[J];吉林师范大学学报(自然科学版);2013年04期

2 李向伟;曹博;;时间参数在HITS算法中的应用及改进[J];兰州工业高等专科学校学报;2006年02期

3 吴涛;彭笃学;;一种改进的直线段裁剪算法[J];湛江师范学院学报;2008年03期

4 张瑞子;南琳;胡琨元;田景贺;;基于EPC Class-1 Gen-2标准的防冲突算法与改进[J];计算机工程;2009年02期

5 黄超;周宁;倪佑生;;基于蚁群算法的攻击图分析[J];计算机工程;2009年18期

6 秦永彬;许道云;;警示传播算法的原理分析及算法改进[J];计算机工程与应用;2010年19期

7 郭毅可;韩锐;;云计算中的弹性算法:概要和展望[J];上海大学学报(自然科学版);2013年01期

8 牛玉静;唐棣;;双步圆的反走样生成算法[J];计算机工程与应用;2010年23期

9 肖璞;;XML索引更新算法的改进[J];南京工程学院学报(自然科学版);2010年03期

10 周骏;陈鸣;张佳明;;两类频繁项算法在网络流上的适用性评估[J];计算机工程;2011年16期

相关会议论文 前10条

1 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会——2004年学术年会论文集[C];2004年

2 黄纪武;毛泽华;李松涛;张锦雄;;SPMD并行查找算法的MPI实现[A];广西计算机学会2004年学术年会论文集[C];2004年

3 符丽锦;覃华;邓海;孙欣;;一种改进的Apriori算法的研究[A];广西计算机学会2012年学术年会论文集[C];2012年

4 王东锋;王军民;陈英武;;模糊定性仿真理论研究与算法实现[A];'2000系统仿真技术及其应用学术交流会论文集[C];2000年

5 赵唯;;晶粒度评级的改进算法[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年

6 刘启文;;可扩展的图形学算法演示系统的研究[A];’2004计算机应用技术交流会议论文集[C];2004年

7 佘智;蒋泰;朱延生;;基于Type C协议的防冲突改进算法[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年

8 朱绍文;赵培;朱秋云;;基于pSPADE并行挖掘序列算法的研究[A];2003年中国智能自动化会议论文集(下册)[C];2003年

9 杨霞;;新的基于启发式蚁群算法的QoS路由算法[A];广西计算机学会2009年年会论文集[C];2009年

10 陈黎飞;姜青山;董槐林;;基于图形轮廓的快速聚类算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

相关博士学位论文 前10条

1 钟永腾;基于近场MUSIC算法的复合材料结构健康监测研究[D];南京航空航天大学;2014年

2 刘燕;入侵杂草优化算法在阵列天线综合中的应用[D];西安电子科技大学;2015年

3 苗义烽;突发事件下的列车运行调度模型与算法研究[D];中国铁道科学研究院;2015年

4 杨玉婷;头脑风暴优化算法与基于视频的非接触式运动定量分析方法研究[D];浙江大学;2015年

5 单美静;求解非线性实代数系统的混合算法研究[D];华东师范大学;2008年

6 邱剑锋;人工蜂群算法的改进方法与收敛性理论的研究[D];安徽大学;2014年

7 潘磊;若干社区发现算法研究[D];南京大学;2014年

8 陈俊波;频繁闭合项集挖掘算法及应用研究[D];浙江大学;2009年

9 陆楠;关联规则的挖掘及其算法的研究[D];吉林大学;2007年

10 范洪博;快速精确字符串匹配算法研究[D];哈尔滨工程大学;2011年

相关硕士学位论文 前10条

1 安世勇;命题逻辑中随机3-SAT问题算法研究[D];西南交通大学;2015年

2 毕晓庆;油气探矿权竞争性出让系统设计与实现[D];中国地质大学(北京);2015年

3 王明明;铁路大机与线路固定设施间距检测算法研究[D];西南交通大学;2015年

4 李静;基于视频图像序列的运动目标检测与跟踪算法研究[D];宁夏大学;2015年

5 刘贝玲;基于天地图的租房平台开发及其关键技术研究[D];西南交通大学;2015年

6 曹海锋;IDS中串匹配臭算法并行优化研究[D];西安建筑科技大学;2015年

7 周攀;基于蚁群算法的山区高速铁路隧道火灾应急疏散最优路径研究[D];西南交通大学;2015年

8 张路奇;基于改进蚁群算法的WSN路由协议的研究[D];中国地质大学(北京);2015年

9 王晓晨;入侵杂草优化算法的应用与改进[D];长安大学;2015年

10 信琴琴;手势控制和识别算法研究[D];闽南师范大学;2015年



本文编号:2394511

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2394511.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户26f90***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com