当前位置:主页 > 科技论文 > 软件论文 >

基于增量式分区策略的MapReduce数据均衡方法

发布时间:2017-07-05 01:13

  本文关键词:基于增量式分区策略的MapReduce数据均衡方法


  更多相关文章: 增量分配 细粒度分区 数据倾斜 均衡分区 MapReduce 大数据


【摘要】:MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce()函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题.
【作者单位】: 西北工业大学计算机学院;
【关键词】增量分配 细粒度分区 数据倾斜 均衡分区 MapReduce 大数据
【基金】:国家“九七三”重点基础研究发展规划项目基金(2012CB316203) 国家自然科学基金(61033007,61332006,61472321) 西北工业大学基础研究基金(3102014JSJ0005,3102014JSJ0013)资助
【分类号】:TP311.13
【正文快照】: 然科学基金(61033007,61332006,61472321)和西北工业大学基础研究基金(3102014JSJ0005,3102014JSJ0013)资助.王卓,男,1984年生,博士研究生,中国计算机学会(CCF)会员,主要研究方向为数据管理.E-mail:zhenwangzhuo@163.com.陈群,男,1976年生,博士,教授,主要研究领域为云计算、图

【相似文献】

中国期刊全文数据库 前10条

1 王秀,叶东毅;基于分布约简的获取规则的增量式方法[J];福州大学学报(自然科学版);2005年01期

2 林俊伟;叶东毅;;基于邻域辨识矩阵的属性约简增量式算法[J];计算机应用;2009年S1期

3 李斌,马戈,孙志挥;项目集发生变化的关联规则增量式更新算法[J];计算机应用;2004年12期

4 刘韶涛;余金山;王宁生;;一种迭代增量式的程序构建方法[J];辽宁工程技术大学学报;2005年06期

5 王军琴;;基于三菱FX_(2N)的增量式PID控制器设计[J];现代电子技术;2010年12期

6 董学勤;刘希璐;;基于增量式PID的改进算法[J];浙江工商职业技术学院学报;2012年03期

7 黄文芝 ,倪国元;基于模糊相似系数的增量式聚类算法[J];微型机与应用;2004年10期

8 罗维;;词语对齐的快速增量式训练方法研究[J];北京大学学报(自然科学版);2013年01期

9 宋和平;胡成全;王力风;侯二娜;;新型双温度反馈增量式PID控制器的设计[J];自动化与仪表;2012年04期

10 刘宗田;属性最小约简的增量式算法[J];电子学报;1999年11期

中国重要会议论文全文数据库 前6条

1 单莘;;一种网络告警的增量式情景规则挖掘方法[A];中国通信学会第五届学术年会论文集[C];2008年

2 王鑫;袁晓洁;李楠;;Native XML数据库的增量式验证[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年

3 程建军;陈晓云;马志新;;程序设计语言课程的增量式教学法改革与实践[A];2005全国计算机程序设计类课程教学研讨会论文集[C];2005年

4 陈恩红;张振亚;王煦法;;基于神经网络的增量式数据索引机制研究[A];2001年中国智能自动化会议论文集(上册)[C];2001年

5 栾江;唐常杰;黄晓冬;阴小雄;廖勇;;一种增量式支持向量机文本分类模型[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年

6 董云云;王中华;冯志全;程金;;吊车-双摆系统的增量式滑模控制[A];第二十七届中国控制会议论文集[C];2008年

中国重要报纸全文数据库 前1条

1 中国社会科学院金融研究所研究员 易宪容;地方增量式金融改革亟待有序规范[N];上海证券报;2012年

中国博士学位论文全文数据库 前3条

1 朱真峰;快速增量式分类算法研究[D];复旦大学;2010年

2 王毅;注塑模改模知识的增量式发现研究[D];广东工业大学;2014年

3 陈春雷;面向GPGPU的并行增量式聚类算法研究[D];西北工业大学;2014年

中国硕士学位论文全文数据库 前10条

1 荆楠;服务网络的构建与面向增量式需求的动态定制方法[D];哈尔滨工业大学;2015年

2 倪国元;基于模糊聚类的增量式挖掘算法研究[D];华中科技大学;2004年

3 张晶;增量式关联规则挖掘算法研究及其在飞行品质监控中的应用[D];中国民航大学;2008年

4 陈楠;基于粗集理论的增量式属性约简研究[D];长春理工大学;2005年

5 张长城;基于增量式低秩学习的视频目标跟踪[D];大连理工大学;2014年

6 何志刚;多约束增量式布局[D];武汉理工大学;2011年

7 陈飞龙;基于偏序关系的快速增量式概念格构建算法[D];西安电子科技大学;2011年

8 孙岩;增量式贝叶斯网络结构学习研究[D];杭州电子科技大学;2011年

9 郝允允;增量式数据竞争检测[D];中国科学技术大学;2009年

10 赖桃桃;增量式属性约简更新算法研究[D];厦门大学;2009年



本文编号:520004

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/520004.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户29762***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com