云计算环境中HDFS数据块存储策略研究
发布时间:2020-12-14 00:03
HDFS(Hadoop Distributed File System)以流式数据访问模式存储超大文件,具有高可靠性、高扩展性、低成本等特性,已广泛运行于商用硬件集群中。但在云计算系统中,由于采用了虚拟化技术,文件存储时如采用HDFS默认的存储策略,将带来数据可靠性的下降。本文通过对HDFS存储方法的改进,提出了一种充分考虑云环境中虚拟机存储位置的数据块存储策略,避免了多个数据块副本存储在同一台物理机器上。实验结果证明,该方法均衡了数据块在物理节点中的存储,提高了系统的可靠性。
【文章来源】:电脑知识与技术. 2020年26期
【文章页数】:3 页
【部分图文】:
云环境中HDFS数据块副本放置例子
我们在基于Open Stack的私有云计算平台中构建了一个Hadoop集群环境,Hadoop版本为2.6.4。集群中包括1个Name Node节点和9个Data Node节点,所有节点均被配置为3个虚拟计算核,4GB的内存和50GB的磁盘空间。我们配置了2个千兆机架交换机,一个交换机下配置了3台物理机器,另一个交换机下配置了2台物理机器。我们使用Random Writer工具生成4GB、8GB和16GB三个不同大小的数据集,并且使用不同的策略(HDFS默认策略和本文提出的优化策略)将它们写入HDFS集群中。在实验中数据块的大小被设置为64MB,副本因子为3。随后我们对不同数据集的数据可靠性指标进行了统计,结果显示采用HDFS的默认放置策略,几乎只有70%的数据块能够实现分配到不同的物理机节点之中,而基于本文提出的存储优化策略,100%的数据块都能被分配到不同的物理机节点中,意味着它们能达到与同构物理环境相同的可靠性,统计结果如表1。4 结束语
HDFS默认采用机架感知的策略分配数据块的存储位置,它支持树形的层次网络拓扑结构,如图1,其中D表示数据中心,R表示机架交换机,H表示数据存储节点。一个集群可能跨越多个数据中心,而每个数据中心又包含有多个机架交换机,各个物理机器节点位于机架交换机下面。通常情况下,同一个机架交换机的网络传输带宽比跨越不同机架交换机的数据交换带宽要高,即将同一个数据块的多个副本放置到同一个机架交换机内部时,能够减少数据写入和读取的时间,但是,若机架交换机发生故障,则将导致整个交换机内的物理机器不能与外通信,使得机架内部的数据不能被访问[6]。在云环境中,由于一个物理机器中包含多个虚拟机,当某个物理主机发生故障时,主机中的虚拟机节点都将不可用,也就意味着位于虚拟机中的同一个数据块的两个甚至多个副本会同时丢失。以图2为例,当物理机节点PM1发生故障时,位于PM1中的数据块10的所有副本都会丢失,导致文件存储的可靠性降低。
【参考文献】:
博士论文
[1]基于云的大数据处理系统性能优化问题研究[D]. 徐华.中国科学技术大学 2018
本文编号:2915423
【文章来源】:电脑知识与技术. 2020年26期
【文章页数】:3 页
【部分图文】:
云环境中HDFS数据块副本放置例子
我们在基于Open Stack的私有云计算平台中构建了一个Hadoop集群环境,Hadoop版本为2.6.4。集群中包括1个Name Node节点和9个Data Node节点,所有节点均被配置为3个虚拟计算核,4GB的内存和50GB的磁盘空间。我们配置了2个千兆机架交换机,一个交换机下配置了3台物理机器,另一个交换机下配置了2台物理机器。我们使用Random Writer工具生成4GB、8GB和16GB三个不同大小的数据集,并且使用不同的策略(HDFS默认策略和本文提出的优化策略)将它们写入HDFS集群中。在实验中数据块的大小被设置为64MB,副本因子为3。随后我们对不同数据集的数据可靠性指标进行了统计,结果显示采用HDFS的默认放置策略,几乎只有70%的数据块能够实现分配到不同的物理机节点之中,而基于本文提出的存储优化策略,100%的数据块都能被分配到不同的物理机节点中,意味着它们能达到与同构物理环境相同的可靠性,统计结果如表1。4 结束语
HDFS默认采用机架感知的策略分配数据块的存储位置,它支持树形的层次网络拓扑结构,如图1,其中D表示数据中心,R表示机架交换机,H表示数据存储节点。一个集群可能跨越多个数据中心,而每个数据中心又包含有多个机架交换机,各个物理机器节点位于机架交换机下面。通常情况下,同一个机架交换机的网络传输带宽比跨越不同机架交换机的数据交换带宽要高,即将同一个数据块的多个副本放置到同一个机架交换机内部时,能够减少数据写入和读取的时间,但是,若机架交换机发生故障,则将导致整个交换机内的物理机器不能与外通信,使得机架内部的数据不能被访问[6]。在云环境中,由于一个物理机器中包含多个虚拟机,当某个物理主机发生故障时,主机中的虚拟机节点都将不可用,也就意味着位于虚拟机中的同一个数据块的两个甚至多个副本会同时丢失。以图2为例,当物理机节点PM1发生故障时,位于PM1中的数据块10的所有副本都会丢失,导致文件存储的可靠性降低。
【参考文献】:
博士论文
[1]基于云的大数据处理系统性能优化问题研究[D]. 徐华.中国科学技术大学 2018
本文编号:2915423
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2915423.html