当前位置:主页 > 科技论文 > 计算机论文 >

Spark缓存机制研究与实现

发布时间:2020-09-03 12:35
   Spark作为基于内存的计算框架,在保留了MapReduce计算模型的容错机制的同时,将数据交换从磁盘级别提高到内存级别,极大提高了大数据计算的处理效率。Spark也非常适用于机器学习领域多次迭代计算的场景,正是由于Spark的基于内存的计算使得Spark框架对于内存非常依赖,内存的使用情况将直接影响到Spark框架的执行速率,而Spark目前仅仅使用LRU算法来对缓存管理,当前的优化工作主要针对于框架的缓存策略,在部分场景下仍然存在低效的缓存替换的问题,本文针对Spark的缓存策略进行研究,主要完成了如下工作:1.针对LRU算法没能考虑RDD的使用情况淘汰掉部分复杂的RDD,以及在缓存替换过程中没有考虑到替换后框架的计算代价,导致重建RDD耗时增加问题,论文提出了一种基于计算代价模型的缓存替换策略,该策略首先建立包括计算代价在内的权重模型,根据新的权重模型进行缓存替换,并基于RDD计算代价模型,选择代价最小的方案进行缓存替换,从而进一步减少重建RDD的时间,提高Spark的执行效率。并将本文策略与权重替换策略和Spark原生的替换策略分别进行实验对比,结果表明,本文策略在数据集较大或者迭代次数多的情况下能够有效提高Spark框架的执行效率。2.针对Spark框架RDD缓存数据恢复机制效率低下的问题,提出一种基于恢复点的RDD缓存快速恢复的策略,将Spark任务以Stage为界限,在每个Stage中分别设置起始恢复点和关键恢复点,并将恢复点数据序列化,当根据RDD血统重建RDD时,直接从恢复点获得数据,缩短了RDD重建的血统路径长度,加速了RDD的重建过程,并在此基础上增加了恢复点清理算法,确保该策略在Spark运行过程中只会占用少量的磁盘空间,节省磁盘资源。并将本文策略与Spark原生数据恢复策略进行实验对比,结果表明,本文策略相比框架原生的数据恢复策略能够加速RDD重建过程,提高Spark的运行速率。3.对本文提出的基于计算代价模型的缓存替换策略、基于恢复点的RDD缓存快速恢复策略进行了设计与实现。论文工作表明,针对Spark的缓存策略进行研究优化,在缓存替换的过程中基于RDD计算代价选择代价最小的方案进行缓存替换,可以降低重建RDD的时延,并将重要RDD序列化,加速RDD的重建过程,进一步减少RDD恢复的时间,提升Spark计算框架的性能,对Spark框架处理大数据有重要意义。
【学位单位】:重庆邮电大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP311.13;TP333
【部分图文】:

软件栈,框架


第 2 章 相关技术k 作为基于内存的大数据处理框架对于内存的使用将直接影响框此针对 Spark 的缓存机制进行研究具有重大意义,在对缓存机制握有关 Spark 的技术基础十分必要。本章针对 Spark 计算框架中行分析阐述,为下一步对于缓存机制的优化奠定基础。rk 框架概述k 适用于多种不同的分布式平台场景,包括批处理、迭代计算、计算等,并将不同场景下用到的组件整合在一个统一的框架下,系统即可,方便开发者后续的维护和升级。如图 2.1 所示,包件。

血统,依赖关系,内存,框架


图 2. 2 RDD 数据管理模型 是只读不可变的数据集合,只能从数据源中产生或者通过 Spark 算Spark 计算框架在运行过程中会把新生成的 RDD 缓存起来,如果RDD可以直接从内存中获取,省去了Hadoop MapReduce中的磁盘器学习中的迭代计算,使用内存的 Spark 框架运行效率提升是非RDD 每经历一次变化就会转化为一个新的 RDD,不同 RDD 之的相互转化产生依赖关系,这些依赖关系构成 RDD 的血统(Lineark 的调度顺序。特别地,RDD 还使用血统进行容错,失效的数据系重新计算来进行恢复,不需要回滚整个程序,节约了容错成本D 的依赖和容错 之间通过 Spark 算子的操作会产生依赖,RDD 和它依赖的父 RDD

依赖关系图


图 2. 3 RDD 依赖关系图 的操作对于 RDD 操作分为转换(Transformation)和动作(Action), 首先将数据从数据源中读取出来,创建初始 RDD 再经过一系DD,最终遇到 Action 操作产生结果,最终将结果输出。其中 S值的,即 Spark 是不会在 Action 调用之前立即计算,而内部首和相关信息,直到遇到 Action 操作 Spark 会将记录的一系列操计算数据的步骤,在一个操作执行完毕,RDD 便转换为新的 指定的操作一次执行数据在一个数据块上进行流水线的操作,用完,而在 Hadoop MapReduce 中往往会花费大量时间在选择。

【相似文献】

相关期刊论文 前10条

1 丁明跃,彭嘉雄,万发贯;多级假设检验的两级图象匹配方法[J];电子学报;1989年02期

2 庄燕滨;王尊志;肖贤建;张学武;;基于最大后验概率估计的压缩感知算法[J];计算机科学;2015年11期

3 杨磊;陆慧娟;严珂;叶敏超;;一种计算代价敏感算法分类精度的方法[J];中国计量大学学报;2017年01期

4 吕洪;王琼;;CG动画探析[J];现代装饰(理论);2013年04期

5 徐瑞英;作门徒的代价[J];天风;2003年10期

6 钟武;胡守仁;;OQL逻辑优化准则[J];计算机科学;1998年02期

7 李炳成;基于模拟退火的二相码选码方法[J];电子科学学刊;1991年03期

8 薛佳楣;王永利;玄子玉;;一种RFID系统反跟踪安全通信协议[J];计算机应用与软件;2009年06期

9 张斌;唐朝晖;朱红求;桂卫华;;一种新型的支持向量机约简方法及其应用[J];系统仿真学报;2012年02期

10 王国才;张聪;;一种基于粗糙集的特征加权朴素贝叶斯分类器[J];重庆理工大学学报(自然科学版);2010年07期

相关会议论文 前6条

1 钟素素;李宇辰;段莉莉;;在MD模拟的基础上探究凝血酶与小分子的结合机制[A];第七届全国计算原子与分子物理学术会议摘要集[C];2018年

2 解凯;吕妍昱;;基于隐含重起ARNOLDI过程的参数估计[A];第十四届全国图象图形学学术会议论文集[C];2008年

3 陈睿;甘志华;;基于反馈的多媒体信息监管方法[A];2011年全国电子信息技术与应用学术会议论文集[C];2011年

4 李权;郭兆电;雷武涛;白俊强;王丹;;飞行器设计中的代理模型与优化算法[A];全面建成小康社会与中国航空发展——2013首届中国航空科学技术大会论文集[C];2013年

5 朱松豪;梁志伟;;用半监督学习方法实现图像检索[A];第二十九届中国控制会议论文集[C];2010年

6 王超;秦小麟;刘亚丽;;SLMAP协议安全分析与改进[A];第十九届全国青年通信学术年会论文集[C];2014年

相关重要报纸文章 前1条

1 胡立彪;量化自己的责任[N];中国质量报;2008年

相关博士学位论文 前7条

1 贺文武;高效预测的核学习方法[D];中南大学;2008年

2 张桂刚;海量规则并行处理研究[D];武汉大学;2009年

3 武鹏;解非线性方程的高阶迭代算法及其收敛性分析[D];浙江大学;2008年

4 李浩渊;集装箱码头物流系统的基于仿真的优化方法研究[D];东北大学 ;2010年

5 万娇娜;基于有限精度求解的非线性预测控制算法研究[D];浙江大学;2011年

6 郑小平;一种基于育种思想的全局优化算法—原理、性能及应用[D];大连理工大学;2008年

7 王可心;大规模过程系统非线性优化的简约空间理论与算法研究[D];浙江大学;2008年

相关硕士学位论文 前10条

1 王宇阳;Spark缓存机制研究与实现[D];重庆邮电大学;2019年

2 韩盼盼;云计算中可验证加密搜索方案和可验证数据流方案研究[D];山东大学;2018年

3 张建文;线性判别分析的迭代解法及其应用[D];中国海洋大学;2014年

4 莫仲念;基于稀疏约束的电磁场逆成像算法研究[D];南昌大学;2016年

5 陈政;基于光在生物组织中传输FEM数值求解的性能评估和优化[D];西北大学;2015年

6 刘洋;可信计算平台下属性证明协议的研究与应用[D];东北大学;2011年

7 王国才;朴素贝叶斯分类器的研究与应用[D];重庆交通大学;2010年

8 史家康;基于肤色分割预处理的人脸检测方法研究[D];南京理工大学;2004年

9 李卫晶;远程用户认证密钥协商协议的研究[D];北京邮电大学;2015年

10 周赵斌;若干抗污染及窃听的安全网络编码方案[D];福建师范大学;2014年



本文编号:2811438

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2811438.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户901ea***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com