异构平台下基于HDFS的数据动态分配策略研究
发布时间:2021-01-05 13:58
随着信息化社会的快速发展,互联网中的数据量急速增长。由于传统存储模式难以突破其存储限制,分布式存储系统便越来越受欢迎,其中HDFS(Hadoop Distributed File System)是目前应用比较广泛的一个分布式文件存储系统。随着先进存储设备的发展,具有高读写性能的SSD和普通磁盘等异构设备作为目前主流的存储介质,已被广泛应用于HDFS系统中。HDFS有效解决了大数据处理面临的海量数据存储问题,并通过提供不同的数据存储策略和相应的存储接口来对冷热度不同的数据进行存放,这样开发人员就可以利用这些接口实现对数据的分类存储。然而,如何精确地对HDFS系统中的冷数据和热数据进行分配成为当前最为关键的问题。经过研究与分析发现,在对HDFS系统中数据进行分配时,现阶段通常采用的分配算法是首先为所有数据统一分配存储策略,然后根据数据的访问频率去动态调整其存储策略,从而实现对冷热数据的分配。但是采用传统算法对HDFS系统中的数据进行分配时,存在以卜问题:一方面,一些冷数据可能被存储在SSD上,导致系统中SSD的命中率不高,无法充分发挥SSD作用,造成SSD硬件资源的浪费,影响HDFS的性能...
【文章来源】:北方工业大学北京市
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1?HDFS体系结构示意图??在HDFS中,对义件的基本访问过程是:??1.川户的应川程序通过HDFS?Client程序将耍访问的文件名发送至??
2.2.2客户端写入数据过程??当客户端写入一个HDFS文件时,Namenode和Datanode也都会参与到整个??交互过程中,如图2-4所示。??和读取数据相比,写入数据过程比较复杂,主要过程如下。??1??首先,客户端会调用DistributedFileSystem类的create()方法在HDFS文??件系统中创建一个新的空文件,该类经过一系列的底层调用后,会返回??一个DFSOutputStream数据流给客户端,即真正进行数据块写入操作??的是?DFSOutputStream?对象。??2.
第三章HDFS数据动态分配策略的设计与实现??BP调整文件热度值的处理流程如图3-3所示。算法1描述了?BP的具体实??现。??输入层丨nput?隐藏层丨丨iddcn?输出层Output??accesses??type?/?'V?V'.-'V'7?Ho(Valuc(current)??一??sumtvpe?///??图3-3?BP调整流程图??/if算法1中,第1-2行描述了整个BP祌经网络的“输入”和“输出”。“输??入”是前而提到的五个因素,把它们表示为-个五元组??〈accesses,accesses/size,type,sumtype,sumtype/size>;?“输出”是被访问文件的当前??热度值。??第3-9行设置了?BP神经网络的-些参数:因为“输入”是一个五元组和“输??丨丨r只冇.个元素,所以设置输入节点数=5,隐藏层节点数=4,输出层节点数=1,??学习半>0.?5。参数Wij表示隐藏层中.元j到输入层单元i?(或输出层单元j到隐藏??层单元i)的连接权重。该算法设置激活函数为Sigmoid函数,并设置了?一个目??标函数F(0〇用T?汁算被访问义件的期望热度位。在BP中,使川真实的文件访??问次数来计算文件的当前热度值。例如:在规定一个特定的时间段,收集在该时??间段内访问最频繁和访问敁+频繁的文件
【参考文献】:
期刊论文
[1]HDFS异构集群中的分级存储调度机制[J]. 杨冬菊,李青,邓崇彬. 小型微型计算机系统. 2017(01)
[2]HDFS下海量小文件高效存储与索引方法[J]. 肖玉泽,张利军,潘巍,张小芳,李战怀. 小型微型计算机系统. 2015(10)
[3]HDFS中高效存储小文件的方法[J]. 尹颖,林庆,林涵阳. 计算机工程与设计. 2015(02)
[4]云计算环境下的分布存储关键技术[J]. 王意洁,孙伟东,周松,裴晓强,李小勇. 软件学报. 2012(04)
[5]基于trace的网络存储系统评测研究[J]. 赵晓南,李战怀,张晓,曾雷杰. 计算机科学. 2010(02)
硕士论文
[1]面向HDFS的访问控制与小文件存储策略的研究与实现[D]. 李蒙.哈尔滨工业大学 2017
[2]基于HDFS的云存储系统的实现与优化[D]. 邹振宇.中国科学技术大学 2016
[3]基于HDFS的分布式存储系统的研究与实现[D]. 崔园.电子科技大学 2016
[4]HDFS分布式文件系统存储策略研究[D]. 周小玉.电子科技大学 2015
[5]基于HDFS的分布式文件系统存储研究与优化[D]. 黎斌.电子科技大学 2015
本文编号:2958794
【文章来源】:北方工业大学北京市
【文章页数】:61 页
【学位级别】:硕士
【部分图文】:
图2-1?HDFS体系结构示意图??在HDFS中,对义件的基本访问过程是:??1.川户的应川程序通过HDFS?Client程序将耍访问的文件名发送至??
2.2.2客户端写入数据过程??当客户端写入一个HDFS文件时,Namenode和Datanode也都会参与到整个??交互过程中,如图2-4所示。??和读取数据相比,写入数据过程比较复杂,主要过程如下。??1??首先,客户端会调用DistributedFileSystem类的create()方法在HDFS文??件系统中创建一个新的空文件,该类经过一系列的底层调用后,会返回??一个DFSOutputStream数据流给客户端,即真正进行数据块写入操作??的是?DFSOutputStream?对象。??2.
第三章HDFS数据动态分配策略的设计与实现??BP调整文件热度值的处理流程如图3-3所示。算法1描述了?BP的具体实??现。??输入层丨nput?隐藏层丨丨iddcn?输出层Output??accesses??type?/?'V?V'.-'V'7?Ho(Valuc(current)??一??sumtvpe?///??图3-3?BP调整流程图??/if算法1中,第1-2行描述了整个BP祌经网络的“输入”和“输出”。“输??入”是前而提到的五个因素,把它们表示为-个五元组??〈accesses,accesses/size,type,sumtype,sumtype/size>;?“输出”是被访问文件的当前??热度值。??第3-9行设置了?BP神经网络的-些参数:因为“输入”是一个五元组和“输??丨丨r只冇.个元素,所以设置输入节点数=5,隐藏层节点数=4,输出层节点数=1,??学习半>0.?5。参数Wij表示隐藏层中.元j到输入层单元i?(或输出层单元j到隐藏??层单元i)的连接权重。该算法设置激活函数为Sigmoid函数,并设置了?一个目??标函数F(0〇用T?汁算被访问义件的期望热度位。在BP中,使川真实的文件访??问次数来计算文件的当前热度值。例如:在规定一个特定的时间段,收集在该时??间段内访问最频繁和访问敁+频繁的文件
【参考文献】:
期刊论文
[1]HDFS异构集群中的分级存储调度机制[J]. 杨冬菊,李青,邓崇彬. 小型微型计算机系统. 2017(01)
[2]HDFS下海量小文件高效存储与索引方法[J]. 肖玉泽,张利军,潘巍,张小芳,李战怀. 小型微型计算机系统. 2015(10)
[3]HDFS中高效存储小文件的方法[J]. 尹颖,林庆,林涵阳. 计算机工程与设计. 2015(02)
[4]云计算环境下的分布存储关键技术[J]. 王意洁,孙伟东,周松,裴晓强,李小勇. 软件学报. 2012(04)
[5]基于trace的网络存储系统评测研究[J]. 赵晓南,李战怀,张晓,曾雷杰. 计算机科学. 2010(02)
硕士论文
[1]面向HDFS的访问控制与小文件存储策略的研究与实现[D]. 李蒙.哈尔滨工业大学 2017
[2]基于HDFS的云存储系统的实现与优化[D]. 邹振宇.中国科学技术大学 2016
[3]基于HDFS的分布式存储系统的研究与实现[D]. 崔园.电子科技大学 2016
[4]HDFS分布式文件系统存储策略研究[D]. 周小玉.电子科技大学 2015
[5]基于HDFS的分布式文件系统存储研究与优化[D]. 黎斌.电子科技大学 2015
本文编号:2958794
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2958794.html