异构存储环境的HDFS副本放置管理策略与检索算法研究
发布时间:2021-01-03 19:37
随着互联网技术的飞速发展,互联网中的数据总量不断攀升,数据已经成为重要的国家基础性战略资源。由于传统存储系统难以突破存储容量的限制,分布式存储系统越来越受到业界的青睐。其中,HDFS被广泛应用于各类大数据应用系统中完成海量数据的存储。同时,随着硬件技术的快速发展,读写速度更快的存储介质不断地出现并得以应用,例如固态硬盘。因此,随着HDFS系统不断扩展和迭代演化,HDFS的集群形态由初期的同构化逐渐演变为异构化,集群中通常会同时存在多种存储介质。那么在异构集群的新常态下,如何高效地实现文件副本的读写,合理地使用各种存储介质,是异构HDFS环境下亟待解决的关键问题。然而不幸地是,HDFS设计之初就是面向同构环境考虑的,默认的副本放置策略、管理策略和检索算法都是面向同构环境设计的,它们在异构环境下存在诸多的不足。在副本放置和检索方面,HDFS在选择放置副本或提供读取服务的节点时仅仅考虑了网络距离,而未考虑节点的异构性和实时性能的差异,容易造成节点负载失衡的问题;在副本管理方面,HDFS采用静态副本管理策略,文件副本一旦完成初次放置其位置和数量便不再发生改变,没有考虑到文件访问性能将随时间发生...
【文章来源】: 秦耀 电子科技大学
【文章页数】:107 页
【学位级别】:硕士
【部分图文】:
不同文件访问量的变化趋势
第四章副本策略和算法的优化55=(1)_(414)2.内存负载内存负载用memload表示,取值范围为[0,1]。内存是计算机系统中至关重要的部件,它是CPU与外存储器沟通的桥梁。计算机系统所有程序的运行都必须在内存中完成,当然数据的读写也离不开内存,因此内存的实时性能的好坏对整个计算机的实时状态影响非常大。内存使用率(MemoryUtilization)是用于衡量内存实时性能的一个重要指标,表示计算机系统中当前已经使用的内存占全部可用内存的百分比值。在常见的Linux系统中,系统会实时地监测并统计当前系统中的内存状态,可以通过在终端输入meminfocat/proc/命令查看系统的内存状态,如图4-10所示。图4-10查看系统的内存状态事实上,meminfocat/proc/命令是读取系统中的一个文件,该文件中存储了系统内存的全部信息。图4-10中仅仅展示了该文件的一部分,包括了主要的内存参数,它们的具体含义和解释如表4-4所示。表4-4Linux中内存状态的常见参数参数名称参数含义具体解释MemTotal内存总量表示可供系统支配的总的内存数量。MemFree空闲内存量表示系统中尚未使用的空闲的内存数量。MemAvailable可用内存量表示应用程序可用的内存数量。由于系统中有些已用的内存可用回收,所以可用内存量比空闲内存量大。Buffers缓冲区内存量表示系统中用来给文件做缓冲的内存数量。Cached缓存区内存量表示高速缓冲存储器占用的内存数量。
S中,当HDFSClient向DataNode发起访问某个文件块副本的请求时,DataNode将会首先从物理存储介质读取这个副本,然后再通过网络传输给远端的客户端。所以,I/O负载在专用于文件存储的HDFS系统中地位很高。因为,若物理存储介质的I/O负载过重时,副本数据的读取时间明显延长,从而导致整个文件块读取请求的速度明显降低。为了更全面地反映存储介质的I/O负载,本文选取I/O使用率描述I/O负载。在Linux中,系统会实时地监测并统计当前系统中的外存储器的状态,可以通过在终端输入x-iostat命令查看系统中每个外存储器的I/O状态,如图4-11所示。在该图中,Device标签下列出了两条外部存储器的信息,分别对应该计算机中的两块磁盘。在这两行的末尾都有一个“%util”参数,表示的就是该磁盘的I/O使用率(I/OUtilization)的百分比形式。如第一行代表xvda设备的I/O使用率为0.03%,第二行代表xvdb设别的I/O使用率为0.00%。图4-11查看系统中的I/O状态同一个计算机中,I/O使用率越高,I/O负载越重;反之,亦然。同时,由于存储介质存在异构性,不同存储介质拥有相同的I/O使用率时,事实上它们的I/O负
【参考文献】:
期刊论文
[1]异构存储的HDFS副本选择策略研究[J]. 杨姗姗,陈彩,梁毅. 软件导刊. 2017(07)
[2]促进大数据发展行动纲要[J]. 成组技术与生产现代化. 2015(03)
[3]Hadoop副本放置策略[J]. 邵秀丽,王亚光,李云龙,刘一伟. 智能系统学报. 2013(06)
[4]AHP法中平均随机一致性指标的算法及MATLAB实现[J]. 焦树锋. 太原师范学院学报(自然科学版). 2006(04)
硕士论文
[1]异构平台下基于HDFS的数据动态分配策略研究[D]. 文士林.北方工业大学 2018
[2]基于异构存储的HDFS副本选择与管理策略研究[D]. 杨姗姗.北京工业大学 2017
本文编号:2955373
【文章来源】: 秦耀 电子科技大学
【文章页数】:107 页
【学位级别】:硕士
【部分图文】:
不同文件访问量的变化趋势
第四章副本策略和算法的优化55=(1)_(414)2.内存负载内存负载用memload表示,取值范围为[0,1]。内存是计算机系统中至关重要的部件,它是CPU与外存储器沟通的桥梁。计算机系统所有程序的运行都必须在内存中完成,当然数据的读写也离不开内存,因此内存的实时性能的好坏对整个计算机的实时状态影响非常大。内存使用率(MemoryUtilization)是用于衡量内存实时性能的一个重要指标,表示计算机系统中当前已经使用的内存占全部可用内存的百分比值。在常见的Linux系统中,系统会实时地监测并统计当前系统中的内存状态,可以通过在终端输入meminfocat/proc/命令查看系统的内存状态,如图4-10所示。图4-10查看系统的内存状态事实上,meminfocat/proc/命令是读取系统中的一个文件,该文件中存储了系统内存的全部信息。图4-10中仅仅展示了该文件的一部分,包括了主要的内存参数,它们的具体含义和解释如表4-4所示。表4-4Linux中内存状态的常见参数参数名称参数含义具体解释MemTotal内存总量表示可供系统支配的总的内存数量。MemFree空闲内存量表示系统中尚未使用的空闲的内存数量。MemAvailable可用内存量表示应用程序可用的内存数量。由于系统中有些已用的内存可用回收,所以可用内存量比空闲内存量大。Buffers缓冲区内存量表示系统中用来给文件做缓冲的内存数量。Cached缓存区内存量表示高速缓冲存储器占用的内存数量。
S中,当HDFSClient向DataNode发起访问某个文件块副本的请求时,DataNode将会首先从物理存储介质读取这个副本,然后再通过网络传输给远端的客户端。所以,I/O负载在专用于文件存储的HDFS系统中地位很高。因为,若物理存储介质的I/O负载过重时,副本数据的读取时间明显延长,从而导致整个文件块读取请求的速度明显降低。为了更全面地反映存储介质的I/O负载,本文选取I/O使用率描述I/O负载。在Linux中,系统会实时地监测并统计当前系统中的外存储器的状态,可以通过在终端输入x-iostat命令查看系统中每个外存储器的I/O状态,如图4-11所示。在该图中,Device标签下列出了两条外部存储器的信息,分别对应该计算机中的两块磁盘。在这两行的末尾都有一个“%util”参数,表示的就是该磁盘的I/O使用率(I/OUtilization)的百分比形式。如第一行代表xvda设备的I/O使用率为0.03%,第二行代表xvdb设别的I/O使用率为0.00%。图4-11查看系统中的I/O状态同一个计算机中,I/O使用率越高,I/O负载越重;反之,亦然。同时,由于存储介质存在异构性,不同存储介质拥有相同的I/O使用率时,事实上它们的I/O负
【参考文献】:
期刊论文
[1]异构存储的HDFS副本选择策略研究[J]. 杨姗姗,陈彩,梁毅. 软件导刊. 2017(07)
[2]促进大数据发展行动纲要[J]. 成组技术与生产现代化. 2015(03)
[3]Hadoop副本放置策略[J]. 邵秀丽,王亚光,李云龙,刘一伟. 智能系统学报. 2013(06)
[4]AHP法中平均随机一致性指标的算法及MATLAB实现[J]. 焦树锋. 太原师范学院学报(自然科学版). 2006(04)
硕士论文
[1]异构平台下基于HDFS的数据动态分配策略研究[D]. 文士林.北方工业大学 2018
[2]基于异构存储的HDFS副本选择与管理策略研究[D]. 杨姗姗.北京工业大学 2017
本文编号:2955373
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2955373.html