当前位置:主页 > 科技论文 > 软件论文 >

MapReduce大数据处理平台与算法研究进展

发布时间:2018-01-19 08:10

  本文关键词: 大数据 MapReduce 外存算法 大数据处理 算法性能优化 出处:《软件学报》2017年03期  论文类型:期刊论文


【摘要】:综述了近年来基于MapReduce编程模型的大数据处理平台与算法的研究进展.首先介绍了12个典型的基于MapReduce的大数据处理平台,分析对比它们的实现原理和适用场景,抽象其共性;随后介绍基于MapReduce的大数据分析算法,包括搜索算法、数据清洗/变换算法、聚集算法、连接算法、排序算法、偏好查询、最优化算法、图算法、数据挖掘算法,将这些算法按照MapReduce实现方式分类,分析影响算法性能的因素;最后,将大数据处理算法抽象为外存算法,并对外存算法的特征加以梳理,提出了普适的外存算法性能优化方法的研究思路和问题,以供研究人员参考.具体包括优化外存算法的磁盘I/O、优化外存算法的局部性以及设计增量式迭代算法.现有的大数据处理平台和算法研究多集中在基于资源分配和任务调度的平台动态性能优化、特定算法并行化、特定算法性能优化等领域,所提出的外存算法性能优化属于静态优化方法,是现有研究的良好补充,为研究人员提供了广阔的研究空间.
[Abstract]:This paper summarizes the research progress of big data processing platform and algorithm based on MapReduce programming model in recent years. Firstly, 12 typical big data processing platforms based on MapReduce are introduced. Analyze and compare their realization principle and applicable scene, abstract their commonness; Then the big data analysis algorithm based on MapReduce is introduced, including search algorithm, data cleaning / transformation algorithm, aggregation algorithm, join algorithm, sorting algorithm, preference query, optimization algorithm. Graph algorithm, data mining algorithm, these algorithms are classified according to the MapReduce implementation mode, and the factors that affect the performance of the algorithm are analyzed. Finally, the big data processing algorithm is abstracted as an external memory algorithm, and the characteristics of the external memory algorithm are combed, and the research ideas and problems of the universal external memory algorithm performance optimization method are put forward. For the reference of researchers. Including the optimization of the disk I / O memory algorithm. The existing big data processing platform and algorithms focus on the dynamic performance optimization of the platform based on resource allocation and task scheduling, and the parallelization of specific algorithms. The performance optimization of the external storage algorithm is a static optimization method, which is a good supplement to the existing research and provides a broad research space for researchers.
【作者单位】: 东北大学软件学院;东北大学计算机科学与工程学院;
【基金】:国家自然科学基金(61672143,61433008,61402090,61502090)~~
【分类号】:TP311.13
【正文快照】: Research Advance on Map Reduce Based Big Data Processing Platforms and AlgorithmsSONG Jie1,SUN Zong-Zhe1,MAO Ke-Ming1,BAO Yu-Bin2,YU Ge21(Software College,Northeastern University,Shenyang 110819,China)2(School of Computer Science and Engineering,Northeas

【相似文献】

相关期刊论文 前10条

1 葛磊;武芳;王鹏波;张冬林;;3维建筑综合中基于最小特征的面平移算法[J];测绘科学技术学报;2009年02期

2 骆雯,孙延明,陈振威,陈锦昌;判断点与封闭多边形相对关系的改进算法[J];机械;1999年03期

3 李林;卢显良;;一种基于切割映射的规则冲突消除算法[J];电子学报;2008年02期

4 刘巧玲;张红英;林茂松;;一种简单快速的图像去雾算法[J];计算机应用与软件;2013年07期

5 林亚平,杨小林;快速概率分析进化算法及其性能研究[J];电子学报;2001年02期

6 章郡锋;吴晓红;黄晓强;何小海;;基于暗原色先验去雾的改进算法[J];电视技术;2013年23期

7 杨铁军;靳婷;;一种动态整周模糊值求解算法及其仿真分析[J];系统工程与电子技术;2007年01期

8 周秀玲;郭平;陈宝维;王静;;几种计算超体积算法的比较研究[J];计算机工程;2011年03期

9 吴一戎,胡东辉,彭海良;Chirp Scaling SAR成象算法及其实现[J];电子科学学刊;1995年03期

10 王贵竹;一种产生单向分解值的算法[J];安徽大学学报(自然科学版);2001年03期

相关会议论文 前10条

1 尹冀锋;;一种新的图象自适应增强算法[A];四川省通信学会一九九二年学术年会论文集[C];1992年

2 宁春平;田家玮;郭延辉;王影;张英涛;郑桂霞;刘研;;计算机辅助增强、分割算法在鉴别乳腺良、恶性肿块中的应用价值[A];中华医学会第十次全国超声医学学术会议论文汇编[C];2009年

3 谢丽聪;;SVB查询改写算法的改进[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

4 郑存红;;复杂背景下相关跟踪算法研究及DSP实现[A];中国光学学会2010年光学大会论文集[C];2010年

5 杨文杰;吴军;;RFID抗冲突算法研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年

6 高山;毕笃彦;魏娜;;一种基于UPF的小目标TBD算法[A];第十四届全国图象图形学学术会议论文集[C];2008年

7 周磊;张卫华;王晓奇;张军;;基于流水算法的智能路障机器人设计[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

8 潘巍;李战怀;陈群;索博;李卫榜;;面向MapReduce的非对称分片复制连接算法优化技术研究[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年

9 李伟伟;蔡康颖;郑新;王文成;;3D模型中重复结构的多尺度快速检测算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

10 杨任尔;陈恳;励金祥;;基于棱边方向检测的运动自适应去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年

相关重要报纸文章 前1条

1 国泰君安资产管理部;“算法交易”是道指暴跌罪魁祸首?[N];上海证券报;2010年

相关博士学位论文 前10条

1 冯辉;网络化的并行与分布式优化算法研究及应用[D];复旦大学;2013年

2 许玉杰;云计算环境下海量数据的并行聚类算法研究[D];大连海事大学;2014年

3 李琰;基于猫群算法的高光谱遥感森林类型识别研究[D];东北林业大学;2015年

4 陈加顺;海洋环境下聚类算法的研究[D];南京航空航天大学;2014年

5 王洋;基于群体智能的通信网络告警关联规则挖掘算法研究[D];太原理工大学;2015年

6 雷雨;面向考试时间表问题的启发式进化算法研究[D];西安电子科技大学;2015年

7 熊霖;大数据下的数据选择与学习算法研究[D];西安电子科技大学;2015年

8 周雷;基于图结构的目标检测与分割算法研究[D];上海交通大学;2014年

9 王冰;人工蜂群算法的改进及相关应用的研究[D];北京理工大学;2015年

10 蒋亦樟;多视角和迁移学习识别方法和智能建模研究[D];江南大学;2015年

相关硕士学位论文 前10条

1 姚鑫宇;EMD去噪与MUSIC算法在DOA估计中的联合应用[D];昆明理工大学;2015年

2 陆进;面向含噪数据聚类相关算法的研究[D];复旦大学;2014年

3 李家昌;基于能量约束的超声图像自动分割算法[D];华南理工大学;2015年

4 陈坚;基于密度和约束的数据流聚类算法研究[D];兰州大学;2015年

5 高健;基于Zynq7000平台的去雾算法研究及实现[D];南京理工大学;2015年

6 顾磊;基于Hadoop的聚类算法的数据优化及其应用研究[D];南京信息工程大学;2015年

7 杨燕霞;基于Hadoop平台的并行关联规则挖掘算法研究[D];四川师范大学;2015年

8 王羽;基于MapReduce的社区发现算法的设计与实现[D];南京理工大学;2015年

9 许振佳;流式数据的并行聚类算法研究[D];曲阜师范大学;2015年

10 董琴;人工蜂群算法的改进与应用[D];大连海事大学;2015年



本文编号:1443348

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1443348.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fbc6d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com