并行数据处理中间件存储分配策略研究
发布时间:2022-02-16 18:41
并行数据处理是一种十分重要的计算机技术,该技术目前在很多领域发挥着重要作用。通过开发一个支持并行数据处理的中间件,将集群并行计算机各节点上分布的数据库连接起来,构成数据并行处理中间件系统,系统中各节点并行工作,可以以较小的代价获得接近并行数据库的性能。在SN结构的并行数据库中,数据被划分到多个处理节点上,查询由多个节点共同完成。在此应用环境中,划分方法的优劣对提高系统并行性,减少数据倾斜,提高系统性能具有重要作用。数据存储分配是查询处理并行化的基础,是并行数据处理技术研究的重要方向之一。本文通过对存储分配策略的研究,研究并提出最大程度适合本系统的数据存储分配策略,以提高系统性能。本文首先描述了数据并行处理中间件的系统结构和工作原理,以此为应用和研究环境,研究如何对关系进行分片,提出一种基于连结代价的划分属性选择算法,对Range和Hash划分方法进行改进,提出适合本系统的R-H划分算法,该算法比原有的Range和Hash方法更有利于实现数据均衡,避免初始数据倾斜的产生。针对系统长期运行后可能发生的数据倾斜,本文研究了中间件系统中数据重分布策略。研究在发生数据倾斜时,如何确定过载节点、过...
【文章来源】:哈尔滨工程大学黑龙江省211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
关系存储设置图
点、热点关系以及热点关系中的过热数据块;最后,在后台进行重分布转移数据,并修改数据字典中的数据分布信J自、。具体过程如下:(1)执行节点的监听模块对系统负载信息进行监听(图5.4为某个执行节点内存负载信自、),检测各处理节点是否发生数据倾斜,是否达到重分布的临界)汽气。细细哥筹哥哥产f。,3矛£。xZ口文本‘.口蓬报川图5.4内存负载信息(2)如达到,则根据各处理节点的负载情况,确定需要重分布的关系,确定需要转移数据和接收数据的处理节傲,确定要转移的数据块。
根据上述查询负载,分别在单节点、4节点、8节点以及16节点情况下对系统的并行加速比进行了测试,划分方案1是系统初始采用的Range划分方法,划分方案2是采用的R一H划分方法,其结果如图5.5所示:1412 ////////广 广///厂 厂///厂 厂 /////.../丫‘‘·Range方法~R一H方法具瑕兰1节点4节点8节点16节点图5.5不同划分方案的加速比图5.5表明R一H划分方法相对于Range划分方法具有更好的并行加速比,这与通过查询代价模型计算得到的划分代价是一致的。考虑到所涉及的查一询负载中连接与聚集操作所占的比重比较大,说明当查询越复杂,系统的并行能力越好。5】
本文编号:3628462
【文章来源】:哈尔滨工程大学黑龙江省211工程院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
关系存储设置图
点、热点关系以及热点关系中的过热数据块;最后,在后台进行重分布转移数据,并修改数据字典中的数据分布信J自、。具体过程如下:(1)执行节点的监听模块对系统负载信息进行监听(图5.4为某个执行节点内存负载信自、),检测各处理节点是否发生数据倾斜,是否达到重分布的临界)汽气。细细哥筹哥哥产f。,3矛£。xZ口文本‘.口蓬报川图5.4内存负载信息(2)如达到,则根据各处理节点的负载情况,确定需要重分布的关系,确定需要转移数据和接收数据的处理节傲,确定要转移的数据块。
根据上述查询负载,分别在单节点、4节点、8节点以及16节点情况下对系统的并行加速比进行了测试,划分方案1是系统初始采用的Range划分方法,划分方案2是采用的R一H划分方法,其结果如图5.5所示:1412 ////////广 广///厂 厂///厂 厂 /////.../丫‘‘·Range方法~R一H方法具瑕兰1节点4节点8节点16节点图5.5不同划分方案的加速比图5.5表明R一H划分方法相对于Range划分方法具有更好的并行加速比,这与通过查询代价模型计算得到的划分代价是一致的。考虑到所涉及的查一询负载中连接与聚集操作所占的比重比较大,说明当查询越复杂,系统的并行能力越好。5】
本文编号:3628462
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3628462.html