Spark缓存机制研究与实现

发布时间：2020-09-03 12:35

　　 Spark作为基于内存的计算框架,在保留了MapReduce计算模型的容错机制的同时,将数据交换从磁盘级别提高到内存级别,极大提高了大数据计算的处理效率。Spark也非常适用于机器学习领域多次迭代计算的场景,正是由于Spark的基于内存的计算使得Spark框架对于内存非常依赖,内存的使用情况将直接影响到Spark框架的执行速率,而Spark目前仅仅使用LRU算法来对缓存管理,当前的优化工作主要针对于框架的缓存策略,在部分场景下仍然存在低效的缓存替换的问题,本文针对Spark的缓存策略进行研究,主要完成了如下工作:1.针对LRU算法没能考虑RDD的使用情况淘汰掉部分复杂的RDD,以及在缓存替换过程中没有考虑到替换后框架的计算代价,导致重建RDD耗时增加问题,论文提出了一种基于计算代价模型的缓存替换策略,该策略首先建立包括计算代价在内的权重模型,根据新的权重模型进行缓存替换,并基于RDD计算代价模型,选择代价最小的方案进行缓存替换,从而进一步减少重建RDD的时间,提高Spark的执行效率。并将本文策略与权重替换策略和Spark原生的替换策略分别进行实验对比,结果表明,本文策略在数据集较大或者迭代次数多的情况下能够有效提高Spark框架的执行效率。2.针对Spark框架RDD缓存数据恢复机制效率低下的问题,提出一种基于恢复点的RDD缓存快速恢复的策略,将Spark任务以Stage为界限,在每个Stage中分别设置起始恢复点和关键恢复点,并将恢复点数据序列化,当根据RDD血统重建RDD时,直接从恢复点获得数据,缩短了RDD重建的血统路径长度,加速了RDD的重建过程,并在此基础上增加了恢复点清理算法,确保该策略在Spark运行过程中只会占用少量的磁盘空间,节省磁盘资源。并将本文策略与Spark原生数据恢复策略进行实验对比,结果表明,本文策略相比框架原生的数据恢复策略能够加速RDD重建过程,提高Spark的运行速率。3.对本文提出的基于计算代价模型的缓存替换策略、基于恢复点的RDD缓存快速恢复策略进行了设计与实现。论文工作表明,针对Spark的缓存策略进行研究优化,在缓存替换的过程中基于RDD计算代价选择代价最小的方案进行缓存替换,可以降低重建RDD的时延,并将重要RDD序列化,加速RDD的重建过程,进一步减少RDD恢复的时间,提升Spark计算框架的性能,对Spark框架处理大数据有重要意义。
【学位单位】：重庆邮电大学
【学位级别】：硕士
【学位年份】：2019
【中图分类】：TP311.13;TP333
【部分图文】：

软件栈,框架

第 2 章相关技术k 作为基于内存的大数据处理框架对于内存的使用将直接影响框此针对 Spark 的缓存机制进行研究具有重大意义，在对缓存机制握有关 Spark 的技术基础十分必要。本章针对 Spark 计算框架中行分析阐述，为下一步对于缓存机制的优化奠定基础。rk 框架概述k 适用于多种不同的分布式平台场景，包括批处理、迭代计算、计算等，并将不同场景下用到的组件整合在一个统一的框架下，系统即可，方便开发者后续的维护和升级。如图 2.1 所示，包件。

血统,依赖关系,内存,框架

图 2. 2 RDD 数据管理模型是只读不可变的数据集合，只能从数据源中产生或者通过 Spark 算Spark 计算框架在运行过程中会把新生成的 RDD 缓存起来，如果RDD可以直接从内存中获取，省去了Hadoop MapReduce中的磁盘器学习中的迭代计算，使用内存的 Spark 框架运行效率提升是非RDD 每经历一次变化就会转化为一个新的 RDD，不同 RDD 之的相互转化产生依赖关系，这些依赖关系构成 RDD 的血统（Lineark 的调度顺序。特别地，RDD 还使用血统进行容错，失效的数据系重新计算来进行恢复，不需要回滚整个程序，节约了容错成本D 的依赖和容错之间通过 Spark 算子的操作会产生依赖，RDD 和它依赖的父 RDD

依赖关系图

图 2. 3 RDD 依赖关系图的操作对于 RDD 操作分为转换（Transformation）和动作（Action），首先将数据从数据源中读取出来，创建初始 RDD 再经过一系DD，最终遇到 Action 操作产生结果，最终将结果输出。其中 S值的，即 Spark 是不会在 Action 调用之前立即计算，而内部首和相关信息，直到遇到 Action 操作 Spark 会将记录的一系列操计算数据的步骤，在一个操作执行完毕，RDD 便转换为新的指定的操作一次执行数据在一个数据块上进行流水线的操作，用完，而在 Hadoop MapReduce 中往往会花费大量时间在选择。

【相似文献】