基于异构Spark集群下的Task调度优化方法
发布时间:2024-03-31 22:03
Spark作为基于DAG的分布式计算框架广泛应用于电商、物联网、数据分析等复杂大数据处理,其中Task调度是影响大数据分析性能的关键因素。随着应用程序的扩大和数据量快速增长,依靠单个数据中心无法满足海量数据的存储和处理。此外,数据中心内部随着高性能机器的引入,原有的数据中心已经变成由异构节点组成。因此,研究异构Spark集群下的Task调度具有现实意义。本文考虑基于异构Spark集群下的Task调度问题,以最小化最大完工时间为优化目标。首先提出改进后的系统架构,然后,针对具有DAG偏序关系Job和Stage以及同一Stage中并行Task之间的问题特点和特征建立数学模型,并且以最小化最大完工时间为优化目标。最后提出基于异构Spark集群下的Task调度算法(STSA),该算法主要由以下四个部分组成:临时参数估计、Job序列动态调整、Stage调度、Task调度。在评估参数过程中通过前向递归计算和后向递归计算评估Job和Stage的相关临时参数。根据临时参数,提出两种Job排序规则,并基于三种Job排序规则来动态调整Job的序列。在Stage调度过程中提出了两种Stage权重设置规则,并...
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景
第2章 应用场景及研究现状
2.1 Spark原理
2.2 应用场景
2.3 研究现状
2.4 研究动机与内容
2.5 论文组织结构
第3章 基于异构Spark集群下的Task调度问题
3.1 系统架构
3.2 问题假设
3.3 问题描述
3.4 基于异构Spark集群下的Task调度问题数学模型
3.5 本章小结
第4章 基于异构Spark集群下的Task调度算法
4.1 基于异构Spark集群下的Task调度算法总体框架
4.2 临时参数估计
4.3 动态调节Job序列
4.4 基于DAG的Stage调度
4.5 基于最早完工时间的Task调度
4.6 调度序列调整方法
4.7 本章小结
第5章 实验结果及分析比较
5.1 实验环境
5.1.1 仿真平台
5.1.2 工作流的实例生成
5.2 评价指标
5.2.1 相对误差百分比
5.2.2 负载均衡度
5.3 参数测定
5.4 方法比较与分析
5.5 本章小结
第6章 结论与展望
6.1 论文主要工作
6.2 未来展望
致谢
参考文献
读硕士学位期间发表的学术论文
本文编号:3944553
【文章页数】:58 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景
第2章 应用场景及研究现状
2.1 Spark原理
2.2 应用场景
2.3 研究现状
2.4 研究动机与内容
2.5 论文组织结构
第3章 基于异构Spark集群下的Task调度问题
3.1 系统架构
3.2 问题假设
3.3 问题描述
3.4 基于异构Spark集群下的Task调度问题数学模型
3.5 本章小结
第4章 基于异构Spark集群下的Task调度算法
4.1 基于异构Spark集群下的Task调度算法总体框架
4.2 临时参数估计
4.3 动态调节Job序列
4.4 基于DAG的Stage调度
4.5 基于最早完工时间的Task调度
4.6 调度序列调整方法
4.7 本章小结
第5章 实验结果及分析比较
5.1 实验环境
5.1.1 仿真平台
5.1.2 工作流的实例生成
5.2 评价指标
5.2.1 相对误差百分比
5.2.2 负载均衡度
5.3 参数测定
5.4 方法比较与分析
5.5 本章小结
第6章 结论与展望
6.1 论文主要工作
6.2 未来展望
致谢
参考文献
读硕士学位期间发表的学术论文
本文编号:3944553
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3944553.html