多HDFS命名空间管理与Alluxio读性能优化
发布时间:2021-11-24 18:22
随着计算机和信息技术的不断发展,传统的单机系统已无法处理日益增长的海量数据,大数据分布并行处理技术应运而生。分布式文件系统是大数据生态中的重要组成部分。HDFS(Hadoop Distributed File System)因为其可靠性和良好的扩展性已经成为广为使用的大数据分布式存储系统。HDFS采用典型的主从式架构,单NameNode节点的元数据承载能力有限,而且会成为HDFS访问的单点瓶颈。常用的水平扩展方案是增加HDFS集群中的NameNode节点数量,每个NameNode节点管理一个独立的命名空间,形成多个HDFS命名空间。多HDFS命名空间管理方案通过向上层应用提供一个统一命名空间,减轻了上层应用使用多HDFS命名空间的负担,同时也消除单NameNode节点带来的单点瓶颈问题。已有的多HDFS命名空间管理方案提供了一定的统一命名空间管理能力,但还存在管理复杂、不易使用等问题和不足。以ViewFS为例,ViewFS下的某个HDFS命名空间变动时,需要所有上层应用修改配置,因此使用显然不方便,易用性上存在不足。目前缺乏一个综合考虑易用性和元数据访问性能的多HDFS命名空间管理方案...
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2?-?1?HDFS系统架构??
Alluxio中,从而将上层大数据计算框架的数据访问速度提升几个数量级。由于??其显著的性能优势,Alluxio受到了工业界的广泛关注,己经在百度、京东、Intel??等超过100家公司的生产环境中进行部署,有在超过1000个节点的集群上运行。??2.2.1?Alluxio系统架构??如图2-3所不,Alluxio米用主从式架构,包括一个ActiveMaster节点和多个??Worker节点,以及多个StandbyMaster节点,StandbyMaster节点不提供对外服??务,负责复制ActiveMaster的元数据信息,并在Master节点失效时迅速接替??Master节点的工作。??
r端的远程过程调用,降低了?Alluxio客户端的元数据访问性能。????mount????alluxio://host:port?^??hdfs://host:port??I??「??mount?????????s3n?://bucket/directoiy???User?Data?Data??■—“—?—?r?——?——'??Foo?Bar?Foo?Bar?Reports?Sales?Reports?Sales??图2-4Alluxio统一命名空间??2.2.3分布式内存存储系统性能优化相关工作??随着上层大数据应用对底层数据读写访问时延的要求越来越高,出现了各种??不同设计目标的分布式内存存储系统,这些分布式内存存储系统中通过使用大页??面内存或者优化mmap读取文件过程等方式提升系统的吞吐量,对优化分布式内??存文件系统具有参考意义。??Crail[35]是支持使用RDMA高性能网络连接多种高速存储设备(如内存、??NVMeF等)的分布式内存存储系统。Crail的从节点默认使用tmpfs[36]作为内存??存储,同时支持使用hugetlbfs作为内存存储。使用hugetlbfs减少了?Crail客户端??读取Cmil从节点数据时的缺页中断次数,提升了上层大数据系统的数据访问性??能。??Plasma是实时机器学习框架Ray[37]使用的分布式对象存储系统,单节点上??的多个Ray?Worker进程通过mmap系统调用将Plasma中存储的对象映射到进程??地址空间中,实现对象的共享访问。Plasma同样支持使用tmpfs或Linux?hugetl
本文编号:3516519
【文章来源】:南京大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2?-?1?HDFS系统架构??
Alluxio中,从而将上层大数据计算框架的数据访问速度提升几个数量级。由于??其显著的性能优势,Alluxio受到了工业界的广泛关注,己经在百度、京东、Intel??等超过100家公司的生产环境中进行部署,有在超过1000个节点的集群上运行。??2.2.1?Alluxio系统架构??如图2-3所不,Alluxio米用主从式架构,包括一个ActiveMaster节点和多个??Worker节点,以及多个StandbyMaster节点,StandbyMaster节点不提供对外服??务,负责复制ActiveMaster的元数据信息,并在Master节点失效时迅速接替??Master节点的工作。??
r端的远程过程调用,降低了?Alluxio客户端的元数据访问性能。????mount????alluxio://host:port?^??hdfs://host:port??I??「??mount?????????s3n?://bucket/directoiy???User?Data?Data??■—“—?—?r?——?——'??Foo?Bar?Foo?Bar?Reports?Sales?Reports?Sales??图2-4Alluxio统一命名空间??2.2.3分布式内存存储系统性能优化相关工作??随着上层大数据应用对底层数据读写访问时延的要求越来越高,出现了各种??不同设计目标的分布式内存存储系统,这些分布式内存存储系统中通过使用大页??面内存或者优化mmap读取文件过程等方式提升系统的吞吐量,对优化分布式内??存文件系统具有参考意义。??Crail[35]是支持使用RDMA高性能网络连接多种高速存储设备(如内存、??NVMeF等)的分布式内存存储系统。Crail的从节点默认使用tmpfs[36]作为内存??存储,同时支持使用hugetlbfs作为内存存储。使用hugetlbfs减少了?Crail客户端??读取Cmil从节点数据时的缺页中断次数,提升了上层大数据系统的数据访问性??能。??Plasma是实时机器学习框架Ray[37]使用的分布式对象存储系统,单节点上??的多个Ray?Worker进程通过mmap系统调用将Plasma中存储的对象映射到进程??地址空间中,实现对象的共享访问。Plasma同样支持使用tmpfs或Linux?hugetl
本文编号:3516519
本文链接:https://www.wllwen.com/guanlilunwen/shequguanli/3516519.html