当前位置:主页 > 科技论文 > 软件论文 >

Spark平台下的中间数据均衡放置及自适应缓存替换策略研究

发布时间:2021-03-06 18:36
  如今面对与日俱增的数据规模与数据复杂性,Spark大数据分布式数据处理平台以其高性能的缓存机制及高扩展性的特点被业界广泛应用。但是当面对数据密集型应用时,Spark集群仍然存在由于数据混洗阶段的数据放置特点而导致的工作负载不均、缓存无用中间结果等问题。如何合理地在数据混洗阶段放置中间数据及制定合理的缓存策略成为亟待解决的问题。因此研究Spark平台下的数据混洗阶段中间数据放置策略及缓存替换策略具有较高的理论与实际意义。鉴于以上存在的问题,本文从以下三个方面展开研究:(1)针对Spark平台下的reduce任务工作负载不均问题,为了提高Spark应用的平均执行时间和reduce任务负载均衡度,本文设计了一种基于储层采样的数据混洗阶段数据放置方法。该方法首先根据合适的采样率,应用基于储层概念的随机采样方法对输入数据进行随机采样来估计输入数据的分布,并计算出每个数据集合中的元组数量。然后提出一个衡量输入数据集合大小整体偏差度的指标,以此将输入数据划分为轻微偏斜与严重偏斜两种程度。最后针对输入数据的轻微偏斜问题,设计了一种不分割数据集合的粗粒度数据放置算法,此算法通过对数据集合进行排序与调度从... 

【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校

【文章页数】:98 页

【学位级别】:硕士

【部分图文】:

Spark平台下的中间数据均衡放置及自适应缓存替换策略研究


Spark集群各节点启动信息

输入数据,混洗


51表4-3iris数据集特征表列名数据类型取值范围说明sepallengthdouble[4.08.0,]萼片长度(厘米)sepalwidthdouble[2.04.0,]萼片宽度(厘米)petallengthdouble[0.07.0,]花瓣长度(厘米)petalwidthdouble[0.03.0,]花瓣宽度(厘米)classvarchar无类别(a)非结构化图形的顶点输入数据(b)非结构化图形的边的输入数据图4-3PageRank负载部分输入数据样例4.3基于储层采样的数据混洗阶段数据放置策略实验验证4.3.1实验设计基于储层采样的数据混洗阶段数据放置算法实验验证主要由三部分组成:(1)为基于储层概念的随机采样算法选择合适的采样率,并给出选择采样率的选择标准;(2)确定衡量输入数据倾斜程度的最佳参数中间值w;(3)使用本文提出的两种粒度的数据混洗阶段数据放置算法执行倒排索引和PageRank两种工作负载,并与经典算法进行比较,以显示本文所提算法在多个性能指标方面的改进。本实验主要为了验证本文所提基于储层采样方法的两种数据混洗阶段中间

【参考文献】:
期刊论文
[1]并行计算框架Spark的自适应缓存管理策略[J]. 卞琛,于炯,英昌甜,修位蓉.  电子学报. 2017(02)
[2]混合架构下多请求模式的缓存替换模型研究[J]. 曹旻,刘文中.  计算机科学. 2015(06)
[3]最小驻留价值缓存替换算法[J]. 刘磊,熊小鹏.  计算机应用. 2013(04)

博士论文
[1]内存计算框架性能优化关键技术研究[D]. 卞琛.新疆大学 2017



本文编号:3067599

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3067599.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户58c87***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com