当前位置:主页 > 科技论文 > 软件论文 >

抗倾斜的Spark中间数据分片机制研究与实现

发布时间:2021-06-30 22:10
  随着互联网技术的发展,互联网产品日益丰富,用户对互联产品的使用不断增加,所产生的海量数据给行业带来了巨大的机遇与挑战。一方面,通过分布式计算技术和数据挖掘算法可以从数据中提取有用的信息。另一方面,由于数据规模浩大、结构复杂,处理数据时经常面临一些严峻的问题。其中分片倾斜就是分布式大数据计算中一种常见的性能瓶颈。作为一种广泛应用的分布式大数据计算引擎,Spark在运行计算任务时,也饱受分片倾斜的困扰。分片倾斜问题,通常表现为Spark分片负载不均衡,一些任务处理的数据量远大于其他任务,这不仅会浪费系统资源、降低计算效率,甚至可能还会导致任务执行失败。因此,为了保证Spark作业的高效顺利的执行,中间数据分片算法的研究十分重要。现存的Spark分片算法并不全面,它们没有考虑Map端聚合对数据变化的影响,也没有关注在Shuffle操作执行后分区中的数据量的变化。为了解决Spark计算框架下分片负载不均的问题,本文提出了一个中间数据分片方法SKRSP(Spark-based key reassigning and splitting partition algorithm)。它包含两个部分:中... 

【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

抗倾斜的Spark中间数据分片机制研究与实现


中间数据的划分

抗倾斜的Spark中间数据分片机制研究与实现


Spark基本架构图

抗倾斜的Spark中间数据分片机制研究与实现


宽依赖与窄依赖示例

【参考文献】:
期刊论文
[1]基于Spark的大数据混合计算模型[J]. 胡俊,胡贤德,程家兴.  计算机系统应用. 2015(04)
[2]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.  软件学报. 2014(09)
[3]MapReduce并行计算技术发展综述[J]. 应毅,刘亚军.  计算机系统应用. 2014(04)
[4]网络大数据:现状与展望[J]. 王元卓,靳小龙,程学旗.  计算机学报. 2013(06)
[5]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗.  中国科学院院刊. 2012(06)
[6]架构大数据:挑战、现状与展望[J]. 王珊,王会举,覃雄派,周烜.  计算机学报. 2011(10)
[7]大数据分析——RDBMS与MapReduce的竞争与共生[J]. 覃雄派,王会举,杜小勇,王珊.  软件学报. 2012(01)

硕士论文
[1]Spark Shuffle的内存调度算法分析及优化[D]. 陈英芝.浙江大学 2016



本文编号:3258588

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3258588.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6ed1d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com