面向日志结构化存储的负载均衡数据加载及故障恢复
发布时间:2024-04-20 09:24
近年来,在数据泛滥的时代,从电子商务到社交网络等移动互联网技术的应用,用户以前所未有的规模产生了大量的数据。传统的通过增加服务器并采用基于分库分表的方法来解决数据库扩展性问题需要大量的人工维护成本和硬件开销。为了降低开销和分库分表带来的各种问题,业界通常利用新型数据库系统替换原有的系统。其中,基于日志结构合并树存储的数据库系统(例如:OceanBase)被广泛采用,这类系统磁盘上存储的数据块一般呈现全局有序的特征。在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新型数据库系统中,并且长时间加载过程中可能出现存储节点故障或加载进程故障。为了减少总加载时间和故障恢复时间,本文提出一种负载均衡且支持高效故障恢复的数据加载方法。为了支持负载均衡的数据加载,考虑到目标系统默认存储块大小,本文采用一种预计算分区数目方法,这种方法基于目标系统默认存储块大小和加载数据文件大小,同时利用数据在分库分表的系统中导出通常局部有序的特点,选择一些采样块并等间隔选样本来确定分区间边界点,减少选取所有采样块并在每个采样块中头部或随机选样本引起的高开销。为了处理不同的故障类型,加快故障恢复速度,特别是存储...
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
本文编号:3959209
【文章页数】:95 页
【学位级别】:硕士
【部分图文】:
图4.5采样块数
华东师范大学硕士学位论文(图4.5中的阴影块)进行采样来估计数据集的大致分布情况,相当于在每个分区中选择一个采样块。图4.5采样块数样本选取在确定了采样块的数目后,需要进一步从所有数据块中选择需要数目的数据块作为采样块,然后在每个采样块中按照一定方法选择样本,通常有以下三种方法可....
图4.6样本选取部选取样本,在每个采样块中选择前个作为样本,虽然效率高,但不适用
华东师范大学硕士学位论文图4.6样本选取部选取样本,在每个采样块中选择前n个key作为样本,虽然效率高,但不适用于有序数据,因此,本文采用等间隔选取样本。在收集所有样本数据后,需要对样本集合进行一个排序,然后根据分区数目确定分区之间的边界点,即生成的边界点等于分区数目减去1。4.....
图5.2迁移过程中存储节点故障
?.6的故障恢复时间Tr来近似表示。由定义3.2中式3.6可得,当数据量比较大时,一个存储节点上分配的副本数量也比较多,如果存储节点发生故障,则会导致大量副本数据需要重新加载,即Np值较大。虽然可以并行分配给其它正常工作的存储节点来并行恢复,但单个存储节点恢复的副本量仍然比较大,....
图5.3存储节点故障下基于重启全局故障恢复
华东师范大学硕士学位论文图5.3存储节点故障下基于重启全局故障恢复图5.4存储节点故障下基于副本局部故障恢复5.2.2基于副本局部故障恢复在上一节中,我们主要讨论了在数据迁移过程中存储节点发生故障时基于重启全局故障恢复方法下的恢复时间的分析,而这种方法通常需要重新从数据源拉取所有....
本文编号:3959209
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3959209.html