基于HDFS分布式存储技术研究与优化
本文关键词:基于HDFS分布式存储技术研究与优化
更多相关文章: HDFS 小文件优化 文件合并 负载均衡 日志分析 云存储
【摘要】:随着互联网的高速发展、互联网用户的快速增长,互联网中的数据也急剧的膨胀。为了给用户提供更好的服务互联网企业就要保存和分析这些数据,,由此产生了云计算的概念。云计算的出现很好的解决了大数据的运算与存储的难题,其中云存储作为云计算的衍生也成为了国内外研究的热点。 Hadoop的分布式文件系统HDFS凭借着高性能、高可靠性等优势已成为业界研究云存储的标准模型。在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低。针对这个问题本文提出了一种基于关系数据库的小文件合并策略,在集群中为每个用户建立一个用户文件,当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,用户读取小文件时通过元数据信息直接以流式方式进行读取。此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率。 除了对HDFS现有架构优化之外,本文还将Web技术与分布式存储技术结合到一起搭建了一个云存储平台,同时利用Hadoop下的Hive工具对网站和集群的日志进行分析与挖掘从而获得用户浏览行为与服务器的运行状况。实验结果表明改进后的架构很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统。
【关键词】:HDFS 小文件优化 文件合并 负载均衡 日志分析 云存储
【学位授予单位】:河北工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要5-6
- ABSTRACT6-9
- 第一章 绪论9-15
- 1.1 研究背景9-10
- 1.2 国内外研究现状10-11
- 1.3 研究意义11-12
- 1.4 本文研究内容与章节安排12-13
- 1.5 本章小结13-15
- 第二章 HDFS 文件系统的架构与特点15-25
- 2.1 HDFS 基本概述15-16
- 2.2 HDFS 的体系结构16-19
- 2.2.1 NameNode 节点分析16-17
- 2.2.2 DataNode 节点分析17-18
- 2.2.3 SecondNameNode 节点分析18-19
- 2.2.4 客户端分析19
- 2.3 HDFS 源代码结构19-20
- 2.4 HDFS 读写文件流程20-22
- 2.4.1 HDFS 读取文件20-21
- 2.4.2 HDFS 写入文件21-22
- 2.5 HDFS 的高可用性22
- 2.6 本章小结22-25
- 第三章 HDFS 架构的优化25-39
- 3.1 小文件存储问题25
- 3.2 现有的小文件优化方案25-29
- 3.2.1 HBase 存储小文件25-27
- 3.2.2 小文件的归档与合并27-28
- 3.2.3 多 NameNode 架构28-29
- 3.3 HDFS 小文件读写的改进29-31
- 3.3.1 架构的设计29-30
- 3.3.2 小文件读写过程分析30-31
- 3.4 小文件存储架构的不足与改进31-34
- 3.4.1 小文件存储架构的不足31-32
- 3.4.2 DFS 服务器的优化32-33
- 3.4.3 文件碎片的清理33-34
- 3.5 小文件架构的实现34-35
- 3.6 小文件架构的测试与分析35-38
- 3.6.1 实验的软硬件环境35-36
- 3.6.2 实验结果与分析36-38
- 3.7 本章小结38-39
- 第四章 基于 HDFS 云存储平台的设计与应用39-55
- 4.1 基于 HDFS 云存储平台的设计39-44
- 4.1.1 云存储平台的体系结构39
- 4.1.2 云存储平台的功能设计39-40
- 4.1.3 云存储平台数据库的设计40-42
- 4.1.4 云存储平台日志分析模块设计42-44
- 4.2 基于 HDFS 云存储平台的应用44-52
- 4.2.1 云存储平台的搭建44-46
- 4.2.2 日志分析的应用46-49
- 4.2.3 文件管理的应用49-52
- 4.3 云存储平台的展示52-54
- 4.4 本章小结54-55
- 第五章 总结与展望55-57
- 5.1 论文总结55
- 5.2 论文展望55-57
- 参考文献57-61
- 攻读学位期间所取得的相关科研成果61-63
- 致谢63-64
【相似文献】
中国期刊全文数据库 前10条
1 王征;刘心松;李美安;;企业信息分布式存储的热点处理策略[J];计算机集成制造系统;2006年09期
2 李磊;沈海斌;黄凯;严晓浪;Han Sangil;Ahmed A Jerraya;;分布式存储管理在多核设计中的高层建模[J];电子与信息学报;2008年11期
3 刘翔;汪海玲;;分布式存储中的一种数据放置策略[J];计算机与数字工程;2009年05期
4 陈卫卫;吴海佳;胥光辉;;分布式存储中文件分割的最优化模型[J];解放军理工大学学报(自然科学版);2010年04期
5 崔忠强;左德承;张展;;在云间可重构的分布式存储[J];系统工程理论与实践;2011年S2期
6 郝杰;逯彦博;刘鑫吉;夏树涛;;分布式存储中的再生码综述[J];重庆邮电大学学报(自然科学版);2013年01期
7 唐京伟;;基于云计算的分布式存储技术[J];中国传媒科技;2013年15期
8 郭栋;王伟;曾国荪;;基于一致性树分布的数据分布式存储方法[J];计算机应用;2013年12期
9 苏李亮;王云福;侯斌;;海量设计文档分布式存储及负载均衡的研究与实现[J];电信科学;2013年12期
10 谢然;;敢问存储之路在何方?见分布式存储摇曳在数据枝头[J];互联网周刊;2014年02期
中国重要会议论文全文数据库 前7条
1 苏李亮;王云福;侯斌;;海量设计文档分布式存储及负载均衡的研究与实现[A];2013电力行业信息化年会论文集[C];2013年
2 苏李亮;王云福;侯斌;;海量设计文档分布式存储及负载均衡的研究与实现[A];2013电力行业信息化年会论文集[C];2013年
3 郑文武;李先绪;黄植勤;邱红飞;;云存储关键技术[A];2012全国无线及移动通信学术大会论文集(下)[C];2012年
4 蒋轶林;郭淑琴;;分布式存储在数字集群移动通信系统中的应用[A];浙江省电子学会2013学术年会论文集[C];2013年
5 姜继忱;陈钢;;P2P之路——缔造“分布式对等”的Internet3.0[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(下)[C];2003年
6 付伟;肖侬;卢锡城;;QoS感知的副本放置问题研究综述[A];第15届全国信息存储技术学术会议论文集[C];2008年
7 张彦;刘欣然;徐慧彬;;一种基于虚拟计算环境的分布式存储体系结构[A];2009全国计算机网络与通信学术会议论文集[C];2009年
中国重要报纸全文数据库 前8条
1 京东架构委员会主任 云平台首席架构师 系统技术部负责人 刘海锋;京东:分布式存储体系成为业务基石[N];中国信息化周报;2014年
2 《网络世界》记者 于翔;京东分布式存储体系研发历程[N];网络世界;2014年
3 《网络世界》记者 于翔;融合一体机投入大规模商用[N];网络世界;2013年
4 记者 余荣华;大数据,催生大变革[N];人民日报;2014年
5 本报记者 张佳星;新生产业布局如何“云”中索骥[N];科技日报;2014年
6 本报记者 甘露;物联网让管理更美妙[N];计算机世界;2013年
7 本报记者 郭涛;华为帮用户定制HANA一体机[N];中国计算机报;2013年
8 临江;手机浏览器,3G时代的采矿机?[N];人民邮电;2009年
中国博士学位论文全文数据库 前8条
1 胡q
本文编号:810739
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/810739.html