分布式存储系统容错机制的研究与实现
发布时间:2020-05-17 14:40
【摘要】:随着人类社会数据爆炸性增长,分布式存储系统的规模也越来越大,节点数少则几千多则上万,磁盘或者节点出现故障的概率大大提高。因此,容错技术是分布式存储系统中不可或缺的重要研究内容。本文在实验室自主研发的分布式存储系统BOSS基础上,对分布式存储系统的容错关键技术进行研究。本文的主要工作如下:(1)针对数据布局算法进行研究,提出了一种基于层次结构的数据布局算法。该算法通过两次哈希选取数据布局位置,能够较好的兼顾数据可靠性与负载均衡性,并且以较小的代价支持集群的动态拓扑变化。(2)在BOSS系统上,实现了RS纠删码,比多副本技术提供更高的容错能力,并提升存储空间利用率。针对数据修复消耗网络带宽过大的问题,提出了一种基于Prime最小生成树的数据修复策略,可有效降低纠删码数据修复时的网络占用带宽。(3)提出了一种磁盘健康状态检测方法,该方法将磁盘空间均等分割为多个采样区,然后在每个采样区内随机取点,综合考虑IOPS性能和延迟,在保证准确率的同时,能够在较短时间内检测出故障磁盘,为及时识别和替换故障磁盘,保证数据可靠性发挥重要作用。
【图文】:
统的技术优点、面向下一代云计算数据中心而研发的大规模分布式存储基于 Linux 环境下普通的 x86 服务器和广受支持的存储设备(磁盘、固)来构建大规模分布式存储系统集群。BOSS 系统从通信协议设计、编解缓存管理算法、I/O 调度、多线程和 I/O 并发性、基于零拷贝的缓冲区个关键环节都进行精心设计,具有高可靠、高并发、可大规模扩展、易特性,满足云数据中心虚拟机、数据库等业务对高性能、低延迟的要求。作为一款适用范围广、应用场景多的存储系统,可在同一部署平台上支(BOSS-EBS)、对象存储(BOSS-OS)等多种数据服务。 系统架构如图 2-1 所示,BOSS 系统使用“分布存储、集中管理”的系统架构,主节点 Monitor、数据服务节点 DataServer、客户端节点 Client 三种组件组情况下,监控节点和数据服务节点可混合部署在同一个物理服务器,客部署在其它的物理服务器。
其与数据节点融合部署时,虽然数据节点会占用大量的 CPU 和网络资源,监点也不会成为系统的瓶颈。监控节点通常使用主从结构来避免单节点故障节点发生故障时,从节点可以代替主节点给系统提供元数据服务,实现系统可靠性。一般情况下,,主监控节点通过间断性的心跳信息来监控数据服务节括节点的健康状态与磁盘的离线状态。另外,主从监控节点之间还通过心跳来维护系统元数据信息的一致性。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333
本文编号:2668715
【图文】:
统的技术优点、面向下一代云计算数据中心而研发的大规模分布式存储基于 Linux 环境下普通的 x86 服务器和广受支持的存储设备(磁盘、固)来构建大规模分布式存储系统集群。BOSS 系统从通信协议设计、编解缓存管理算法、I/O 调度、多线程和 I/O 并发性、基于零拷贝的缓冲区个关键环节都进行精心设计,具有高可靠、高并发、可大规模扩展、易特性,满足云数据中心虚拟机、数据库等业务对高性能、低延迟的要求。作为一款适用范围广、应用场景多的存储系统,可在同一部署平台上支(BOSS-EBS)、对象存储(BOSS-OS)等多种数据服务。 系统架构如图 2-1 所示,BOSS 系统使用“分布存储、集中管理”的系统架构,主节点 Monitor、数据服务节点 DataServer、客户端节点 Client 三种组件组情况下,监控节点和数据服务节点可混合部署在同一个物理服务器,客部署在其它的物理服务器。
其与数据节点融合部署时,虽然数据节点会占用大量的 CPU 和网络资源,监点也不会成为系统的瓶颈。监控节点通常使用主从结构来避免单节点故障节点发生故障时,从节点可以代替主节点给系统提供元数据服务,实现系统可靠性。一般情况下,,主监控节点通过间断性的心跳信息来监控数据服务节括节点的健康状态与磁盘的离线状态。另外,主从监控节点之间还通过心跳来维护系统元数据信息的一致性。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333
【参考文献】
相关期刊论文 前1条
1 董勇;蒋艳凰;卢宇彤;周恩强;;面向磁盘故障预测的机器学习方法比较[J];计算机工程与科学;2015年12期
本文编号:2668715
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2668715.html