当前位置:主页 > 经济论文 > 金融论文 >

面向日志结构化数据存储的高效数据加载

发布时间:2021-01-14 18:24
  近年来,随着互联网技术的快速发展,无论是互联网企业还是传统的金融机构,用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题,需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题,业界通常用新型数据库系统替换原有的系统,其中,基于日志结构合并树存储的数据库系统(如OceanBase)被广泛采用,这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新数据库系统中,长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间,提出了一种负载均衡且支持高效容错的数据加载方法;为了支持负载均衡的数据加载,与预确定分区划分数据的方法不同,考虑到目标系统默认存储块大小,采用通过基于文件大小和目标系统默认存储块大小预计算分区数目,并利用分库分表的数据导出往往已经排序的特点,采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;为了加快故障恢复速度,利用日志结构合并树存储系统的多备份减少故障恢复时的数据量,提出... 

【文章来源】:华东师范大学学报(自然科学版). 2019,(05)北大核心

【文章页数】:16 页

【部分图文】:

面向日志结构化数据存储的高效数据加载


图2?#于戈件的加载过程??Fig.?2?File-based?loading?process??

分区处理,切分点,数据量,分区数


第5期??丁_痕?面向日志讀构化数掘春储德高效_振_载??149??而使每个分区处理的数据童都相对比较均匀.,获得比较好的负载均衡.然而,全局采样的开??销通常比较离f本文采用一种选部分块进行采样的方法,本文称这种方法为部分采样.选取??部分数据块采样会导致确定的切分点不是很精确,进而导致每个分区实际处理的数据量不??是很均匀,即太小在blockSize左右波动.在这种情況下,导致有些分,区处理的数据量比较多,??进而使该分区所在的笮点执行数据格式转换时需要更长的执行时间,在加载到存储系统系??统中时,可能还需要额外的I/O开销将大分区的数据进行分裂;而有些分区处理的数据量比??较少,执行完数据格式转换任务需要等待执行时间长的任务完成.为了使每个分区处理的数??据量小于_于blOCkSiZe,本文在第2.1节设置分区数目的基础上加上1个增量值t因此,在??部分采样下,用公式??_?^?.?.?「fileSize?…??numOiPartition?=?— ̄ ̄—;——十?e?(2)??blockSize??来近似估算分区数目,式(2)中,g是一个比较小的值,e值的大小取决子采样的精确度,??采样的块数越多,采样的精确度越高,采样开销也越太,所以采样的块数和采样的精确??性之间存在一个权衡.一般采样的块数越多,最终确鉅的切分点越精确,每个分匡处理的数??据也越均匀,因此S的取值就越小;反之,采样的块数越少,确定的切分点相对就不是粮精确,??就会导致每个分区处理的数据董本均匀,出现数据量过大或过小的分良则可通过增大s来'??增加分区的数目,进而在一定程度来减少过大或过小分区的出现,使每个分区处理的数据鷲??小子等于=

加载性能


第5期??丁_痕?面向日志讀构化数掘春储德高效_振_载??155??^采样?转换?加载??15??.驗采样对加栽性能影??Fig.?7?Effect?of?partial?sampling?on?loading??表2为在不同采样比例情况下甚取不同值时的总加载时间.从表2中可以看出,随着采样??比例的减少,由于减少了采样开销,从而提麄了加载的性能.但实验中发现,当采样比例减少到??一定值时,如1/5,??已经裉难得到一个相对精确的采样值,通过增大s值也很难使分谨数据相对??均衡篇小于等于存储系统默认存储块大小.此外,对子^的采样比例,存在一个优化的g,使得??可以获得相对较优的加载性能.??图7为对应部分采样比例为1/4下最优的加载性能与全烏采样方法(即采样比例为1).在??从图6的右图可珙看出,在不同数据量的情况下,采用预确定分区数目的方法设置分区??数目等于f标系统存储智点的数寶丨即7),而对宁采用预计算分區数目的方法设査分区数目??为「ffleSizyblockSize].当数擬漏象小时,如1GB,,「fileSize/bloekSize'(小于?,由:于预翁走分??区方法的并行度更魏所以预确定分区数目:方法的加载性能优于预计算分区数但随鮝数??据量的增大,相比采甩预确定分区数目的加载方法,预计算分区数薛的加载方法由于并行度??更高而获得更好的加载性能.因此,当加载数華量1:较大时,采用预计算分区数目的加载方??法性能比采用预确定分麗数目的方法更好.??4.3.2划分切分点对加载性能的暴响??在前面的实验中,为了使各个分区尽可能比较均衡分区大小小于等于貝标存储系统??的默认存储块大小,采用了对数据源进行全局


本文编号:2977314

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/guojijinrong/2977314.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8d1c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com