当前位置:主页 > 科技论文 > 计算机论文 >

基于Alluxio的数据高可用部署策略的研究与优化

发布时间:2020-07-10 23:38
【摘要】:随着存储着海量数据的分布式文件系统的进一步发展,为了满足各种企业、学术机构等组织对数据存取速度的需求,诞生了内存分布式文件系统这一概念。以开源的Alluxio为代表的内存分布式文件系统的逐渐发展,被人们运用到了日常生活中的方方面面,但这也暴露出了不少问题。本文以海量数据系统的可用性为研究目标,对比分析其他系统上的确保数据可靠性的机制,结合Alluxio自身特性,就数据部署策略方面提出改进的措施,以此来提高Alluxio自身的可用性,并且确保对上层计算框架更好的支持。Alluxio系统作为大数据生态系统的中间层,链接着上层计算框架与底层存储系统。当其正支持着上层计算框架对数据的读取时,若底层存储系统或者与之的通信网络发生故障,Alluxio中的数据的可靠性将不能从底层存储中获得保障,便会使系统不可用。同时考虑到远端调用在维护数据一致性的巨大消耗,建立或完善Alluxio内部对数据可用性的保障机制是十分必要的。所有的冗余措施都会占用Alluxio本就不多的内存存储,本文对此提出了一种改进思想。其主要分为两点,其一是将数据按热度进行划分,对热点数据以Alluxio层次化存储的方式固定到内存来提高内存空间的利用率进而提高系统整体的执行效率;其二是以数据块为粒度,通过设定合适的副本个数结合Alluxio并行化的读取措施进一步提高热点数据的读取效率,降低冷门数据占用的存储空间,也通过冗余措施确保了系统的可用性。这样当Alluxio在面对底层存储失联,自身节点故障等问题是仍能维持对上层计算框架的服务并坚持到故障被修复。基于上述的优化思想,在对Alluxio的源码进行解读后,本文在外部建立了一套按数据块预测读取频率来分类的计算模块与进行副本个数管理的动态调整模块;在内部改写了其自带的数据分配策略,添加了数据分层持久化的内容,同时对异常进行了监控,并以此实现了故障处理模块。最后,本文以一种模仿实际数据访问分布的读取算法对完成的热点数据分层部署策略和数据块副本动态调整策略进行测试,在与其他策略对比分析后,成功验证了本文策略的在提高系统响应效率、降低系统负载的有效性;在故障模拟后,通过分析任务的执行情况,也成功验证了本文策略对系统可用性提高上的有效性。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP333
【图文】:

生态系统,框架,管理机制,副本


第 2 章 Alluxio 与副本冗余技术相关介绍本章首先介绍 Alluxio 的架构及相关数据管理机制,然后分析了副本冗余的概念,结合其特性指出了设计上的要点。2.1 Alluxio 数据管理机制内存分布式文件系统 Alluxio,负责透明化底层存储,提供统一的 API 给予不同的计算框架,处于大数据生态的中间层,链接着底层存储与上层计算框架。如图 2-1 所示,其加速了大数据计算框架中系统的数据读写速度。Allux用挂载或直接依赖的方式支持现有的大多数底层大数据存储系统,然后提供包装好的访问接口给不同的上层计算框架,降低了海量数据存储系统的迁移代价本节主要介绍 Alluxio 的架构和各种对数据的管理机制。

系统架构


图 2-2 Alluxio 系统架构图主节点 Master 是 Alluxio 集群的主控节点,管理着整个文件系统的目录该目录下所有文件的元数据,也负责与集群中的所有 Worker 节点联络,通信以确保目录与相关文件元数据的实时性。从节点 Worker 节点管理着本地数据层,一般可以分为内存存储与非内储,而非内存存储继续按磁盘响应速度细分,则可划分为 SSD 和 HDluxio 对其并未限制分层个数,但业界一般设为 3 层,即 MEM,SSD(固盘)与 HDD(硬盘驱动器)层。Worker 节点对自身的数据变更通过日志进本地目录,同时通过心跳机制对 Master 发送自身状态与存储数据的信客户端 Client 用于向用户应用提供访问接口,客户只需要通过该接口来存储于 Alluxio 中的数据,即做到了底层节点交互对上层应用操作透明的原则,从而简化开发程序的复杂度。

命名机制,底层


Master 与 Worker 间存在心跳机制,周期性地互相通信以维护数据信息,保证数据与节点之间的映射关系。在 Alluxio 中,Master 首先将用户对数据的请求进行划分处理,根据保存于 Master 节点中的数据-节点映射关系,分别交予不同节点响应。因为统一命名空间的关系,如果用户请求的是 Alluxio 内部存储外的文件,则会交予底层存储 UFS 来对请求进行响应。2.1.2 底层存储支持Alluxio 针对目前流行的底层存储,诸如 GCS、S3、Ceph、Swift、HDFS等,都设计了相应的挂载接口。用户即使是面对需要统合多种存储系统中的数据才能进行计算的工作,通过 Alluxio 文件系统挂载多种不同的底层存储系统就可轻易实现任务目标。底层存储将数据从原先基于磁盘的存储移动到Alluxio,同时自身的原数据能够给 Alluxio 提供最后的可靠性保障。Alluxio通过挂载和透明命名机制管理自身存储和底层存储。

【参考文献】

相关期刊论文 前7条

1 左方;何欣;;一种基于蚁群算法的云存储副本动态选择机制研究[J];计算机应用研究;2015年11期

2 陶永才;张宁宁;石磊;卫琳;;异构环境下云计算数据副本动态管理研究[J];小型微型计算机系统;2013年07期

3 李新华;;浅谈大数据时代的机遇与挑战[J];通讯世界;2013年11期

4 赵洋;;淘宝TFS深度剖析[J];数字化用户;2013年03期

5 祝家钰;肖丹;;云计算架构下的动态副本管理策略[J];计算机工程与设计;2012年09期

6 石刘;郭明阳;刘浏;沈玉良;许鲁;;基于反馈机制的动态副本数量预测方法[J];系统仿真学报;2011年S1期

7 周功业;雷伟;陈进才;;基于对象存储系统中的热点数据平衡策略[J];华中科技大学学报(自然科学版);2007年12期

相关会议论文 前1条

1 胡忠平;;大数据时代背景下档案管理探讨[A];“决策论坛——企业管理模式创新学术研讨会”论文集(上)[C];2017年

相关博士学位论文 前2条

1 郭力争;云计算环境下资源部署与任务调度研究[D];东华大学;2015年

2 吴晨涛;对象存储系统中热点数据的研究[D];华中科技大学;2010年

相关硕士学位论文 前5条

1 董文菁;基于Alluxio的数据高可用管理技术的研究与优化[D];哈尔滨工业大学;2017年

2 李聪;HDFS元数据管理的高可用性优化技术研究[D];哈尔滨工业大学;2016年

3 张明;IaaS中基于热点数据的存储系统研究与实现[D];哈尔滨工业大学;2015年

4 周小玉;HDFS分布式文件系统存储策略研究[D];电子科技大学;2015年

5 蒋浩;分布式文件存储系统副本管理方法研究[D];浙江大学;2013年



本文编号:2749613

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2749613.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户238b3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com