HDFS文件系统的改进研究
发布时间:2022-01-24 08:42
对于云端存储的海量数据来说,提升分布式文件系统的性能以及云端存储数据的安全性与可问责能力是必要的。然而,HDFS默认的副本存放策略进行副本存放节点的选择时具有随机性,那么随之而来的问题是节点间副本存放不均衡以及数据恢复时由于距离因素造成内部带宽的巨大消耗;与此同时,对于需要将海量数据寄存在云服务平台上的用户来说,HDFS未能提供足够的安全机制来确保数据的安全性。因此,针对HDFS默认副本存放策略以及如何提供安全的数据存储及操作环境的研究是有意义的。本文在对HDFS进行研究与分析的基础上,从默认副本存放策略以及数据安全性两个角度来考虑改进工作。针对HDFS默认副本存放策略中存在的不足,改进后的副本存放策略将节点之间的距离、节点当前的负载情况、节点磁盘I/O效率以及副本失效次数等因素纳入节点选择的考虑范围内,并依此计算出每个节点的匹配度,随后选出匹配度最高的节点作为远端机架间的副本存放最佳节点。实验结果表明,不但实现了节点间副本数目的负载均衡,而且兼顾了数据恢复时消耗的内部带宽;由于将数据副本失效次数纳入考虑因素,可以实现经常失效数据副本的快速恢复。为了应对云存储中数据安全性问题,本文设计...
【文章来源】:南京邮电大学江苏省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
GFS系统架构
供的是基于网孔结构的分布式文件系统,其明显的优势在外单元格内的用户之间的共享信息,那么需要获得其它网孔。对于传统文件系统来说,提供用户文件目录进行访问;对路径来实现,此路径具有唯一性并且对用户来说是完全透明文件目录一样。ile System System(TFS)[19]是中国阿里巴巴公司推出的一款国内分布是海量小文件的存储。一般情况下文件大小不大于 1MB;部宝网之上,高效、可靠地实现淘宝网的海量数据的存储工作
这种方式的优势是恢复之后的状态与失效之前的 Namenode 保持高度数据丢失的情形;缺点就是同步所带来的带宽的消耗。)通过从 Namenode 来实现当主 Namenode 失效之后的迅速切换,从而保证务能力不会中断。由于从 Namenode 运行于另一个节点之上,存在从 Nam落后主 Namenode 当前状态的现象,导致的结果就是部分数据的丢失现象。数据流户端执行读取操作时,客户端和 HDFS 之间存在交互过程以及 NameNde 之间存在交互的数据流。文件读取FS 读取文件时时序图如图 2.2 所示:
【参考文献】:
期刊论文
[1]初始信息素筛选的蚁群优化算法在HDFS副本选择中的研究[J]. 段效琛,李英娜,贾会玲,赵振刚,李川. 传感器与微系统. 2017(04)
[2]基于低密度随机纠删码的TFS容灾优化方案[J]. 王子伟,王晓京. 计算机应用. 2016(S2)
[3]分布式存储中的纠删码容错技术研究[J]. 王意洁,许方亮,裴晓强. 计算机学报. 2017(01)
[4]Hadoop分布式文件系统原理[J]. 曹卉. 软件导刊. 2016(03)
[5]基于HDFS的云存储系统小文件优化方案[J]. 邹振宇,郑烇,王嵩,杨坚. 计算机工程. 2016(03)
[6]基于HDFS的分布式存储策略分析[J]. 王来,翟健宏. 智能计算机与应用. 2016(01)
[7]分布式文件系统综述[J]. 文莎. 软件导刊. 2015(11)
[8]谷歌大数据技术的研究及开源实现[J]. 陈晨,陈达丽. 软件产业与工程. 2015(05)
[9]SFFS:低延迟的面向小文件的分布式文件系统[J]. 王鲁俊,龙翔,吴兴博,王雷. 计算机科学与探索. 2014(04)
[10]Hadoop副本放置策略[J]. 邵秀丽,王亚光,李云龙,刘一伟. 智能系统学报. 2013(06)
硕士论文
[1]HDFS下文件存储研究与优化[D]. 张波.广东工业大学 2013
[2]HDFS环境下的访问控制技术研究[D]. 陈贞.重庆大学 2013
[3]基于HDFS的存储技术的研究[D]. 王永洲.南京邮电大学 2013
[4]基于云存储的数据存储系统的设计与实现[D]. 郭耀华.北京邮电大学 2012
[5]基于HDFS的分布式存储研究与应用[D]. 童明.华中科技大学 2012
[6]Hadoop平台高可用性方案的设计与实现[D]. 杨帆.北京邮电大学 2012
[7]基于HDFS的分布式Namenode节点模型的研究[D]. 李宽.华南理工大学 2011
[8]云存储系统服务质量控制与可靠性技术研究[D]. 许信.浙江大学 2011
[9]面向云存储的分布式文件系统关键技术研究[D]. 赵黎斌.西安电子科技大学 2011
[10]基于HDFS的云存储服务系统研究[D]. 黄晓云.大连海事大学 2010
本文编号:3606263
【文章来源】:南京邮电大学江苏省
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
GFS系统架构
供的是基于网孔结构的分布式文件系统,其明显的优势在外单元格内的用户之间的共享信息,那么需要获得其它网孔。对于传统文件系统来说,提供用户文件目录进行访问;对路径来实现,此路径具有唯一性并且对用户来说是完全透明文件目录一样。ile System System(TFS)[19]是中国阿里巴巴公司推出的一款国内分布是海量小文件的存储。一般情况下文件大小不大于 1MB;部宝网之上,高效、可靠地实现淘宝网的海量数据的存储工作
这种方式的优势是恢复之后的状态与失效之前的 Namenode 保持高度数据丢失的情形;缺点就是同步所带来的带宽的消耗。)通过从 Namenode 来实现当主 Namenode 失效之后的迅速切换,从而保证务能力不会中断。由于从 Namenode 运行于另一个节点之上,存在从 Nam落后主 Namenode 当前状态的现象,导致的结果就是部分数据的丢失现象。数据流户端执行读取操作时,客户端和 HDFS 之间存在交互过程以及 NameNde 之间存在交互的数据流。文件读取FS 读取文件时时序图如图 2.2 所示:
【参考文献】:
期刊论文
[1]初始信息素筛选的蚁群优化算法在HDFS副本选择中的研究[J]. 段效琛,李英娜,贾会玲,赵振刚,李川. 传感器与微系统. 2017(04)
[2]基于低密度随机纠删码的TFS容灾优化方案[J]. 王子伟,王晓京. 计算机应用. 2016(S2)
[3]分布式存储中的纠删码容错技术研究[J]. 王意洁,许方亮,裴晓强. 计算机学报. 2017(01)
[4]Hadoop分布式文件系统原理[J]. 曹卉. 软件导刊. 2016(03)
[5]基于HDFS的云存储系统小文件优化方案[J]. 邹振宇,郑烇,王嵩,杨坚. 计算机工程. 2016(03)
[6]基于HDFS的分布式存储策略分析[J]. 王来,翟健宏. 智能计算机与应用. 2016(01)
[7]分布式文件系统综述[J]. 文莎. 软件导刊. 2015(11)
[8]谷歌大数据技术的研究及开源实现[J]. 陈晨,陈达丽. 软件产业与工程. 2015(05)
[9]SFFS:低延迟的面向小文件的分布式文件系统[J]. 王鲁俊,龙翔,吴兴博,王雷. 计算机科学与探索. 2014(04)
[10]Hadoop副本放置策略[J]. 邵秀丽,王亚光,李云龙,刘一伟. 智能系统学报. 2013(06)
硕士论文
[1]HDFS下文件存储研究与优化[D]. 张波.广东工业大学 2013
[2]HDFS环境下的访问控制技术研究[D]. 陈贞.重庆大学 2013
[3]基于HDFS的存储技术的研究[D]. 王永洲.南京邮电大学 2013
[4]基于云存储的数据存储系统的设计与实现[D]. 郭耀华.北京邮电大学 2012
[5]基于HDFS的分布式存储研究与应用[D]. 童明.华中科技大学 2012
[6]Hadoop平台高可用性方案的设计与实现[D]. 杨帆.北京邮电大学 2012
[7]基于HDFS的分布式Namenode节点模型的研究[D]. 李宽.华南理工大学 2011
[8]云存储系统服务质量控制与可靠性技术研究[D]. 许信.浙江大学 2011
[9]面向云存储的分布式文件系统关键技术研究[D]. 赵黎斌.西安电子科技大学 2011
[10]基于HDFS的云存储服务系统研究[D]. 黄晓云.大连海事大学 2010
本文编号:3606263
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3606263.html