抗倾斜的Spark中间数据分片机制研究与实现
发布时间:2021-06-30 22:10
随着互联网技术的发展,互联网产品日益丰富,用户对互联产品的使用不断增加,所产生的海量数据给行业带来了巨大的机遇与挑战。一方面,通过分布式计算技术和数据挖掘算法可以从数据中提取有用的信息。另一方面,由于数据规模浩大、结构复杂,处理数据时经常面临一些严峻的问题。其中分片倾斜就是分布式大数据计算中一种常见的性能瓶颈。作为一种广泛应用的分布式大数据计算引擎,Spark在运行计算任务时,也饱受分片倾斜的困扰。分片倾斜问题,通常表现为Spark分片负载不均衡,一些任务处理的数据量远大于其他任务,这不仅会浪费系统资源、降低计算效率,甚至可能还会导致任务执行失败。因此,为了保证Spark作业的高效顺利的执行,中间数据分片算法的研究十分重要。现存的Spark分片算法并不全面,它们没有考虑Map端聚合对数据变化的影响,也没有关注在Shuffle操作执行后分区中的数据量的变化。为了解决Spark计算框架下分片负载不均的问题,本文提出了一个中间数据分片方法SKRSP(Spark-based key reassigning and splitting partition algorithm)。它包含两个部分:中...
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
中间数据的划分
Spark基本架构图
宽依赖与窄依赖示例
【参考文献】:
期刊论文
[1]基于Spark的大数据混合计算模型[J]. 胡俊,胡贤德,程家兴. 计算机系统应用. 2015(04)
[2]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[3]MapReduce并行计算技术发展综述[J]. 应毅,刘亚军. 计算机系统应用. 2014(04)
[4]网络大数据:现状与展望[J]. 王元卓,靳小龙,程学旗. 计算机学报. 2013(06)
[5]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[6]架构大数据:挑战、现状与展望[J]. 王珊,王会举,覃雄派,周烜. 计算机学报. 2011(10)
[7]大数据分析——RDBMS与MapReduce的竞争与共生[J]. 覃雄派,王会举,杜小勇,王珊. 软件学报. 2012(01)
硕士论文
[1]Spark Shuffle的内存调度算法分析及优化[D]. 陈英芝.浙江大学 2016
本文编号:3258588
【文章来源】:湖南大学湖南省 211工程院校 985工程院校 教育部直属院校
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
中间数据的划分
Spark基本架构图
宽依赖与窄依赖示例
【参考文献】:
期刊论文
[1]基于Spark的大数据混合计算模型[J]. 胡俊,胡贤德,程家兴. 计算机系统应用. 2015(04)
[2]大数据系统和分析技术综述[J]. 程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰. 软件学报. 2014(09)
[3]MapReduce并行计算技术发展综述[J]. 应毅,刘亚军. 计算机系统应用. 2014(04)
[4]网络大数据:现状与展望[J]. 王元卓,靳小龙,程学旗. 计算机学报. 2013(06)
[5]大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 李国杰,程学旗. 中国科学院院刊. 2012(06)
[6]架构大数据:挑战、现状与展望[J]. 王珊,王会举,覃雄派,周烜. 计算机学报. 2011(10)
[7]大数据分析——RDBMS与MapReduce的竞争与共生[J]. 覃雄派,王会举,杜小勇,王珊. 软件学报. 2012(01)
硕士论文
[1]Spark Shuffle的内存调度算法分析及优化[D]. 陈英芝.浙江大学 2016
本文编号:3258588
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3258588.html