Spark缓存机制和作业调度策略研究

发布时间：2023-03-04 11:35

　　随着互联网的高速发展,每天都会产生海量数据。如何快速且准确的从海量数据中提取高价值的信息,成为当前的研究热点,大数据处理技术便随之产生。现如今,应用最广泛的大数据处理框架有Hadoop和Spark,Hadoop最先诞生,其使用MapReduce计算框架结合磁盘完成任务处理。Spark通过对数据集进行抽象处理提出了 RDD数据模型,并引入基于内存的计算模式,从而大大的减少了数据传输的时间并提高了作业运行效率。本文基于Spark计算平台,研究了其进行分布式计算时内存管理和作业调度策略,首先通过对内存管理进行建模和分析,发现现有的内存管理中的缓存替换算法存在缺陷,并提出进行改进方案,使得有限的内存可以得到充分的利用。然后对Spark Standalone中默认的作业调度策略进行形式化分析,提出了新的作业调度策略,该策略提高了作业的运行效率。下面将详细介绍本文的主要研究工作:(1)提出一种基于RDD分区权重的缓存替换算法。目前,Spark采用的缓存替换算法LRU存在缺陷,即会使高重用但最近未使用的Block容易被换出缓存。针对上述问题,现有的研究工作提出了以权重大小为替换依据的缓存替换算法。但...

【文章页数】：66 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 Spark缓存替换研究现状
        1.2.2 Spark作业调度研究现状
    1.3 论文的研究内容与组织结构
        1.3.1 本文研究内容
        1.3.2 本文组织结构
    1.4 本章小结
2 基本理论与关键技术
    2.1 Spark简述
    2.2 Spark基础架构
        2.2.1 Spark设计思想
        2.2.2 Spark计算模型
    2.3 Spark作业执行过程
    2.4 本章小结
3 基于RDD分区权重缓存替换算法
    3.1 Spark缓存机制
    3.2 Spark缓存替换优化方案
        3.2.1 RDD计算代价C_{RDDi
        3.2.2 RDD使用次数F_RDDi
        3.2.3 RDD分区大小S_p
        3.2.4 RDD生命周期LT_RDDi
        3.2.5 RDD输入位置IL_RDDi
    3.3 基于WCSRP模型的缓存替换算法
    3.4 实验与结果分析
        3.4.1 实验设置
        3.4.2 实验分析
    3.5 本章小结
4 基于作业分类自适应作业调度策略
    4.1 问题描述与建模
        4.1.1 作业模型
        4.1.2 作业分类模型
        4.1.3 节点计算能力评估模型
        4.1.4 自适应作业调度策略问题定义
    4.2 Spark作业调度策略优化设计
        4.2.1 数据收集模块设计
        4.2.2 作业分类模块设计
        4.2.3 计算能力评估模块设计
        4.2.4 作业分类算法
        4.2.5 自适应作业调度算法
    4.3 实验与结果分析
        4.3.1 作业分类的实验结果
        4.3.2 自适应作业调度的实验结果
    4.4 本章小结
5 总结与展望
    5.1 工作总结
    5.2 未来展望
参考文献
致谢
在校期间研究成果

本文编号：3754220

suoshi}

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3754220.html

上一篇：基于资源访问控制的控制流劫持检测与防御研究
下一篇：基于车联网数据的车辆驾驶画像分析和风险研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|