分布式存储系统中读写均匀的数据分布研究

发布时间：2021-06-17 07:37

　　为了应对日渐增长的数据规模和存储集群规模以及对数据读写越来越严格的性能要求,分布式存储系统在数据存储业界得到了日渐广泛的应用。在分布式存储系统中,为了使数据获得更好的可用性,对数据进行冗余是很有必要的。副本是一种常用的冗余方式,在规模较大的系统中,由于数据体量是极为庞大的,如果不使用合理高效的算法对数据副本进行放置,将会对整个系统造成极大的性能损失。在分布式存储系统中,目前应用较为广泛的数据分布算法包括crush算法以及kinesis算法等。crush算法旨在存储集群发生变化时获得最少的数据移动,而kinesis算法旨在在相对灵活的存储位置选择下,使系统的资源使用更加均匀。但是这些现有的数据分布算法都没有关注读写均匀问题,对读写均匀关注的缺失导致集群中的节点之间在故障恢复和数据迁移过程中出现负载不均,从而增加花费的时间。因此,我们针对上述的问题展开研究,目标旨在在分布式存储系统中,找到一种可以满足读写均匀特性的数据分布方法,保证在同一节点上不会放置相同数据的多个副本,并且可以随着集群的动态扩展进行数据副本的自动调整,保持数据的读写均匀特性。针对crush算法存在的问题,我们提出了一种新...

【文章来源】：吉林大学吉林省 211工程院校 985工程院校教育部直属院校

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

分布式存储系统中读写均匀的数据分布研究

crush算法映射过程

逻辑视图,策略,示例,节点

图 2.1 crush 算法映射过程指的是对象存储设备(OSD)分布的逻辑视图，其中间的 bucket 节点可以根据集群的不同情况表示不同、数据中心等。指定了对象数据副本应当如何放置，即在存储集群的节点存放数据，这为数据分布提供了极大的灵活性，点用于双向镜像，一条策略用于在两个不同数据中心像，一条策略用于六个节点上的 RAID-4 等。说明了放置策略的执行步骤，take(a)操作选择存储层一个 bucket)。select(n,t)操作在以该节点为根的子树点。每次执行 select 将会在节点中使用函数 c(r,x)进符合要求的 t 类型的节点为止。

示意图,数据分布,示意图,资源配置成本

第 2 章典型数据分布算法介绍原则：结构化(将服务器划分为几个故障隔离段)，自由选择(根据当前资源可用性自由分配最佳服务器来存储和检索数据)和分散分布(系统中副本的独立，伪随机分布) 。这些设计原则使存储系统能够在存在增量系统扩展，单个和共享组件故障以及数据大小和流行度的偏差分布的情况下实现存储和网络资源的均衡利用。反过来可以显著降低资源配置成本，具有良好的用户感知响应时间，以及故障的快速并行恢复速度。

【参考文献】：
期刊论文
[1]面向大数据分析的分布式文件系统关键技术[J]. 周江,王伟平,孟丹,马灿,古晓艳,蒋杰. 计算机研究与发展. 2014(02)

本文编号：3234775

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3234775.html

上一篇：PCI Express总线Space Wire接口卡研制
下一篇：云计算中基于多目标优化的虚拟机整合算法

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|