基于HDFS的名字节点的性能优化技术研究
发布时间:2017-06-12 14:01
本文关键词:基于HDFS的名字节点的性能优化技术研究,由笔耕文化传播整理发布。
【摘要】:如今是大数据的时代。面对日益增长的海量多样的数据,传统的数据存储技术已经无法满足这样的大数据存储需求。Hadoop分布式文件系统的出现,解决了大数据存储的难题。由于Hadoop分布式文件系统HDFS(Hadoop Distributed File System)采用一主多从的架构,存在着名字节点单点失效问题;并且在存储海量的小文件时,会严重降低名字节点的存储性能,同时引发名字节点的内存瓶颈问题。对名字节点性能优化的研究,为解决大数据处理与存储难题有着重要的探索价值和实际意义。 课题对名字节点的性能优化进行了深入的分析与研究。针对名字节点单点失效问题,本课题采用MN-BH分布式文件系统结构,优化了原有的云存储平台。若主名字节点服务器因故障宕机,可以及时启动另一从名字节点服务器,确保Hadoop集群正常服务。为了提高名字节点对海量小文件的存储性能,解决小文件引发的单点内存瓶颈问题,本课题提出了HSFM小文件存储优化算法。待上传的小文件经预处理层进行处理,即将海量的小文件归并成一个大文件,然后持久化地存储在各个DataNode节点中,从源头解决了小文件引发的名字节点内存瓶颈问题。该算法可有效地减轻名字节点内存负担,大大提高名字节点读写文件的性能。 对名字节点的性能优化分析后,本课题给出了名字节点性能优化的详细设计与实现。最后,测试优化后的HDFS分布式文件系统,模拟主NameNode服务器宕机,启用待命从NameNode服务器,HDFS中数据文件没有丢失,,确保整个Hadoop服务器集群正常运行,测试达到了预期效果。测试优化后名字节点性能,设计了三组实验,即:NameNode内存占用量测试、小文件存储性能测试、小文件读取性能测试。实验结果表明,优化设计可以大大地减少名字节点内存占用量;文件读写速度较优化前速度的2-3倍。分析测试后的实验数据,达到了预期测试效果。
【关键词】:HDFS 名字节点 小文件 分布式文件系统
【学位授予单位】:沈阳工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333
【目录】:
- 摘要4-5
- Abstract5-10
- 第1章 绪论10-15
- 1.1 课题研究背景与意义10-11
- 1.2 研究现状11-13
- 1.2.1 名字节点恢复技术的相关研究11-12
- 1.2.2 名字节点内存优化技术的相关研究12-13
- 1.3 主要研究内容13
- 1.4 论文结构13-15
- 第2章 相关技术分析与研究15-28
- 2.1 云计算15
- 2.2 云存储概述15-16
- 2.3 云存储与云计算的关系16-17
- 2.4 Hadoop 分布式文件系统17-27
- 2.4.1 HDFS 概述17-20
- 2.4.2 NameNode 功能分析20-23
- 2.4.3 DataNode 功能分析23-27
- 2.5 本章小结27-28
- 第3章 NameNode 节点优化分析28-37
- 3.1 NameNode 存在问题的分析28-29
- 3.1.1 节点失效28
- 3.1.2 单点内存瓶颈28-29
- 3.2 NameNode 节点失效优化分析29-33
- 3.2.1 MN-BH 优化策略29-30
- 3.2.2 NameNode 启动过程30-31
- 3.2.3 优化后 NameNode 启动过程31-32
- 3.2.4 优化后元数据处理流程32-33
- 3.3 NameNode 节点内存瓶颈优化分析33-36
- 3.3.1 HSFM 的优化策略34-35
- 3.3.2 小文件优化存储流程35
- 3.3.3 小文件优化读取流程35-36
- 3.4 本章小结36-37
- 第4章 NameNode 节点优化设计与实现37-54
- 4.1 多名字节点 MN-BH 优化设计37-41
- 4.1.1 总体架构设计37
- 4.1.2 功能分析37-40
- 4.1.3 名字节点间元数据同步设计40-41
- 4.2 多名字节点间的元数据同步实现41-43
- 4.2.1 N2 服务端元数据同步实现41-42
- 4.2.2 N1 客服端 mount 挂接实现42-43
- 4.3 基于 HSFM 的名字节点性能优化系统设计与实现43-48
- 4.3.1 总体架构设计与实现43-44
- 4.3.2 处理层架构实现44-45
- 4.3.3 系统功能实现45-48
- 4.4 HSFM 优化算法48-52
- 4.4.1 数据的 I/O 序列化操作48-49
- 4.4.2 HSFM 优化算法实现49-52
- 4.5 本章小结52-54
- 第5章 NameNode 节点优化测试与分析54-67
- 5.1 硬件环境54
- 5.2 软件环境54
- 5.3 Hadoop 云集群部署54-59
- 5.4 多名字节点 MN-BH 分布式文件系统测试59-62
- 5.4.1 功能测试59-62
- 5.4.2 结果分析62
- 5.5 NameNode 性能测试与结果分析62-66
- 5.5.1 NameNode 内存占用量测试与分析63
- 5.5.2 NameNode 对小文件存储性能测试与分析63-65
- 5.5.3 NameNode 对小文件读取性能测试与分析65-66
- 5.6 本章小结66-67
- 第6章 结论67-69
- 参考文献69-71
- 在学研究成果71-72
- 致谢72
【参考文献】
中国期刊全文数据库 前10条
1 唐箭;;云存储系统的分析与应用研究[J];电脑知识与技术;2009年20期
2 朱颂;;分布式文件系统HDFS的分析[J];福建电脑;2012年04期
3 薛莹;;基于HDFS存储服务系统的研究和应用[J];硅谷;2013年01期
4 乐洪超;赵辉;;一种基于HDFS的远程文件备份系统的设计和实现[J];计算机安全;2013年07期
5 谢峰;;基于Hadoop的云存储平台设计研究[J];电子技术与软件工程;2013年16期
6 柳平;李春青;姬婵娟;;基于HDFS的云存储架构模型分析[J];电脑知识与技术;2013年36期
7 刘晓霞;;Hadoop中大量小文件性能优化方法研究[J];计算机光盘软件与应用;2013年18期
8 蔡静;;Hadoop平台的研究及其改进[J];计算机光盘软件与应用;2014年05期
9 赵晓永;杨扬;孙莉莉;陈宇;;基于Hadoop的海量MP3文件存储架构[J];计算机应用;2012年06期
10 廖彬;于炯;张陶;杨兴耀;;基于分布式文件系统HDFS的节能算法[J];计算机学报;2013年05期
本文关键词:基于HDFS的名字节点的性能优化技术研究,由笔耕文化传播整理发布。
本文编号:444167
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/444167.html