当前位置:主页 > 科技论文 > 计算机论文 >

云计算环境中分布式文件系统数据一致性问题研究

发布时间:2017-10-20 17:14

  本文关键词:云计算环境中分布式文件系统数据一致性问题研究


  更多相关文章: 数据一致性 HDFS 缓存 小文件 NWR


【摘要】:随着各行各业信息化的程度不断的提高和移动互联网的飞速发展,传统的计算模式和存储模式已经不能满足日益增长的业务需求,云计算就是在这种背景下提出的一种计算模式,它是一种分布式计算、并行计算和网格计算的商业发展,提供了一种按需付费和弹性扩展的服务方式。云存储是云计算服务架构中的重要组成部分,它提供了可扩展,高容错的存储服务。分布式文件系统则提供了对云存储系统的支撑,其性能的好坏直接影响了云存储服务能力。分布式文件系统为了提高系统的可靠性和性能一般都采用了副本和缓存的技术,然而复制和缓存却带了副本和缓存的数据一致性问题。为了解决一致性问题从不同的角度有多种一致性模型可以参考。HDFS是一种面向大数据集、高吞吐量应用的一种分布式文件系统,在数据存储节点上它提供了冗余存储数据块的机制来保证系统的可扩展性和可靠性,然而它采用的是基于管道流的副本数据块更新机制,当面对交互式的应用场景时,它所采用的副本数据块强一致性策略会造成服务性能的急剧下降。本文从分析面向个人用户的云存储服务的特点以及用户使用云存储服务的习惯出发,在研究了HDFS的技术架构的基础上设计并实现了基于HDFS的交互式云存储系统,使用了一种可配置的数据副本一致策略来提高系统的可用性,并采用了客户端缓存和合并小文件的方案来提高系统的整体性能。本文的主要工作包括:分析和研究了解决分布式系统中一致性问题可以采用的数据同步模型;研究了HDFS所采用的数据同步模型,并指出其在提供面向个人的云存储服务时的不足,提出并实现了一种基于NWR模型的可配置的数据副本读写同步方案;基于HDFS不提供客户端缓存的事实,为了增强系统的可扩展性和减轻服务端的访问压力,在原生HDFS的客户接口上增加客户缓存模块;针对HDFS在面临大量小文件存储时Namenode内存利用率低下的情况设计并实现了一种能够极大的提高小文件存取效率的方案。最后通过测试和分析证明了本系统的可用性以及服务性能的提高。
【关键词】:数据一致性 HDFS 缓存 小文件 NWR
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333;TP316.4
【目录】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 绪论10-15
  • 1.1 课题背景及研究现状10-13
  • 1.2 本文的主要工作13
  • 1.3 本文的结构安排13-15
  • 第二章 相关理论与技术概述15-27
  • 2.1 云计算15-16
  • 2.2 云存储16-18
  • 2.2.1 云存储定义16-17
  • 2.2.2 云存储与传统存储的比较17-18
  • 2.3 分布式文件系统18
  • 2.4 复制与缓存18-19
  • 2.5 Hadoop分布式文件系统19-25
  • 2.5.1 HDFS的读过程20-21
  • 2.5.2 HDFS的写过程21-22
  • 2.5.3 HDFS的并发控制和副本同步22-23
  • 2.5.4 HDFS的主要接.和存储结构23-25
  • 2.6 NWR模型25-26
  • 2.7 本章小结26-27
  • 第三章 数据一致性问题分析与研究27-33
  • 3.1 一致性问题的由来27-28
  • 3.2 一致性模型28-32
  • 3.2.1 以数据为中心的一致性模型29-30
  • 3.2.2 以客户为中心的一致性模型30-32
  • 3.3 分布式文件系统中的数据一致性问题32
  • 3.3.1 客户端缓存32
  • 3.3.2 服务器端复制32
  • 3.4 本章小结32-33
  • 第四章 基于HDFS的交互式云存储系统的设计33-50
  • 4.1 系统需求分析33-35
  • 4.1.1 系统功能需求分析33-34
  • 4.1.2 系统性能需求分析34-35
  • 4.2 系统整体架构35-37
  • 4.3 系统的详细设计37-49
  • 4.3.1 小文件存储设计37-42
  • 4.3.2 基于NWR模型的读写同步设计42-47
  • 4.3.3 本地缓存设计47-49
  • 4.4 本章小结49-50
  • 第五章 基于HDFS的交互式云存储系统的实现50-68
  • 5.1 小文件处理模块的实现50-55
  • 5.1.1 主要数据结构实现50-51
  • 5.1.2 小文件读写处理过程51-53
  • 5.1.3 小文件合并方法53-54
  • 5.1.4 并发访问控制54-55
  • 5.2 基于NWR模型的读写同步模块的实现55-64
  • 5.2.1 数据块签名和Primary索引的实现55-56
  • 5.2.2 Datanode与Namenode通信协议的实现56-61
  • 5.2.3 Primary选取策略61
  • 5.2.4 副本更新判定过程61-62
  • 5.2.5 NWR读写方法62-64
  • 5.3 本地缓存模块的实现64-67
  • 5.4 本章小结67-68
  • 第六章 测试与分析68-73
  • 6.1 测试环境安装与部署68-69
  • 6.2 测试结果分析与比较69-72
  • 6.2.1 写入文件对比测试69-70
  • 6.2.2 小文件存储性能测试70-72
  • 6.3 本章小结72-73
  • 第七章 总结与展望73-75
  • 7.1 论文总结73-74
  • 7.2 工作展望74-75
  • 致谢75-76
  • 参考文献76-78

【参考文献】

中国期刊全文数据库 前1条

1 吴吉义;平玲娣;潘雪增;李卓;;云计算:从概念到平台[J];电信科学;2009年12期

中国硕士学位论文全文数据库 前1条

1 陈光景;Hadoop小文件处理技术的研究和实现[D];南京邮电大学;2013年



本文编号:1068372

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1068372.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7965a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com