基于MapReduce的两表数据倾斜连接的优化算法
本文关键词:基于MapReduce的两表数据倾斜连接的优化算法
更多相关文章: MapReduce Range partition算法 数据倾斜 连接算法优化
【摘要】:针对Range partition算法不能优化数据集严重倾斜情形下的两表连接效率问题,提出一种改进的数据倾斜连接算法.该算法将倾斜数据和非倾斜数据区别处理,利用复制、广播方法将数据发送到每个Reduce节点,通过一轮Map/Reduce任务完成所有的连接操作,可有效均衡每个Reduce处理量,解决了数据严重倾斜对两表连接性能的影响.与传统的分区连接算法比较结果表明,该算法有效.
【作者单位】: 山西大学商务学院信息学院;
【关键词】: MapReduce Range partition算法 数据倾斜 连接算法优化
【基金】:国家自然科学基金(批准号:61303107)
【分类号】:TP301.6
【正文快照】: 数据倾斜是指一个数据集中的某个数据或某些数据的出现频次远高于其他数据出现频次的现象.由于倾斜的数据集会严重影响MapReduce程序的执行效率,因此数据倾斜下连接算法的效率优化问题也是大数据处理背景下的研究热点[1].目前,对Map/Reduce的数据倾斜问题研究已有很多结果,如K
【相似文献】
中国期刊全文数据库 前10条
1 司方豪;钟春琳;;使用MapReduce提高多路数组聚集效率[J];电脑编程技巧与维护;2014年10期
2 贾瑞玉;刘范范;潘雯雯;王伟东;;基于MapReduce模型的并行量子进化算法[J];计算机工程;2012年08期
3 周涛;贺其备;黄光明;林和平;;基于MapReduce的海量图像处理模型的研究[J];信息技术;2013年11期
4 杨绍禹;王世卿;;MapReduce模型下数据隐私保护机制研究[J];计算机科学;2012年12期
5 刘热;;基于MapReduce的大规模话题网络提取分析[J];淮海工学院学报(自然科学版);2014年02期
6 冷芳玲;鲍玉斌;高伟;于戈;;基于MapReduce的数据聚集运算算法[J];中国科技论文在线;2011年07期
7 潘巍;李战怀;伍赛;陈群;;基于消息传递机制的MapReduce图算法研究[J];计算机学报;2011年10期
8 吴文忠;易平;;MapReduce在分布式搜索引擎中的应用[J];计算机系统应用;2012年02期
9 金健;陈群;赵保学;;数据倾斜情况下基于MapReduce模型的连接算法研究[J];计算机与现代化;2013年05期
10 贾瑞玉;李亚龙;;基于MapReduce的量子蚁群算法[J];计算机工程与应用;2013年19期
中国硕士学位论文全文数据库 前10条
1 金鹏;MapReduce框架下基于阈值约束的空间文本相似连接[D];燕山大学;2015年
2 周鸣爱;云计算中MapReduce高可用性和高效性的优化研究[D];河北工程大学;2015年
3 闫晓妩;MapReduce下的约束频繁模式挖掘与任务调度[D];太原科技大学;2015年
4 王强;基于MapReduce的大数据增量处理研究[D];东北大学;2014年
5 魏博文;基于MapReduce的XML编码查询算法研究与实现[D];武汉纺织大学;2016年
6 余川江;网格中基于MapReduce应用的可视化系统的设计与实现[D];哈尔滨工业大学;2012年
7 陈存衡;基于MapReduce的数据图检索算法研究[D];大连海事大学;2013年
8 邹鹏;基于抽样分区解决MapReduce中的数据倾斜问题[D];大连理工大学;2013年
9 何翔;异构分布式环境下基于MapReduce模型的任务调度算法研究[D];湖南大学;2013年
10 孙雨冰;基于MapReduce化的数据聚类算法的研究、设计与应用[D];华东理工大学;2013年
,本文编号:547703
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/547703.html