云环境下大数据存储副本策略的优化研究
发布时间:2021-10-09 00:45
大数据时代的到来给人类带来机遇,也带来挑战。云存储为大数据提供了理想的存储解决方案。可用性和性能是用户使用云存储的重要考量。云存储中的副本技术不仅能维持系统较高的可用性,同时还能整体提升系统的性能。动态副本技术相比较于静态副本技术更能满足云存储复杂环境下的数据访问需求。副本因子动态调整策略以及副本放置问题是副本技术的研究重点,也是本文的主要研究内容。本文针对副本因子动态调整问题,在分析现有Hadoop分布式文件系统静态副本机制不足的基础上,结合时间局部性原理对文件的访问热度进行预测,对不同热度的文件动态地采取不同的调整策略,具体通过筛选和调整两个阶段来完成,在提升访问性能的同时避免存储资源的浪费。实验结果表明改进的副本因子调整策略可以降低系统作业平均响应时间,能够有效地提升数据访问的性能。本文针对副本放置问题,分析了已有副本放置策略在异构环境下所存在的局限性,结合统计学知识对集群中节点的异构特性进行定量评价,在遵循给定副本放置基本原则的前提下,根据节点综合性能评价值的不同来进行合理的副本放置。实验结果表明改进的副本放置策略在确保系统整体可用性的前提之下能使副本分布更加趋于合理和均衡,同...
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
GCP全球区域和服务点为了减少因软硬件故障或自然灾害等引起的系统服务质量下降、用户数据丢失的情况,
验证动态副本因子调整算法对系统性能的改进,在阿里云环境下搭建 Hadoop环境进行仿真实验验证,对比分析了默认副本机制和动态副本因子调整算法对时间的影响。 实验环境与设置于 Hadoop 的 Master/Slave 架构,借助阿里云云服务器 ECS 搭建分布式的仿真CS(Elastic Compute Service,弹性计算服务)是由 Alibaba 下属阿里云推出的具和扩展性的云服务器,用户可以按需进行计算和存储资源的购买,图 3.4 是 E面,同时阿里云推出的“云翼计划”针对高校学生群体采取了一系列从购买优再到应聘的推广方案。该分布式实验平台包含 3 个 Slave 节点以及一个 Maste主要配置如表 3.1 所示。
(c) 128.0MB 文件作业响应时间随访问热度变化(d) 256.0MB 文件作业响应时间随访问热度变化图 3.5 作业响应时间随访问热度变化的对比图3.5 本章小结本文设计的动态副本因子调整改进策略主要解决了云环境下静态副本机制存在的局限性,针对什么时候触发副本因子调整以及如何进行副本因子调整作出了相关的算法处理说明。结合云环境下多用户文件访问的热度差异和不同决策时间区间内的访问热度值,对副本因子进行动态的调整,可以在提升文件访问性能的同时降低存储空间的消耗。后续的研究工作将考虑如何进一步优化副本因子调整算法,以更好地适应复杂云环境下文件突发性的访问需求。
本文编号:3425303
【文章来源】:南京邮电大学江苏省
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
GCP全球区域和服务点为了减少因软硬件故障或自然灾害等引起的系统服务质量下降、用户数据丢失的情况,
验证动态副本因子调整算法对系统性能的改进,在阿里云环境下搭建 Hadoop环境进行仿真实验验证,对比分析了默认副本机制和动态副本因子调整算法对时间的影响。 实验环境与设置于 Hadoop 的 Master/Slave 架构,借助阿里云云服务器 ECS 搭建分布式的仿真CS(Elastic Compute Service,弹性计算服务)是由 Alibaba 下属阿里云推出的具和扩展性的云服务器,用户可以按需进行计算和存储资源的购买,图 3.4 是 E面,同时阿里云推出的“云翼计划”针对高校学生群体采取了一系列从购买优再到应聘的推广方案。该分布式实验平台包含 3 个 Slave 节点以及一个 Maste主要配置如表 3.1 所示。
(c) 128.0MB 文件作业响应时间随访问热度变化(d) 256.0MB 文件作业响应时间随访问热度变化图 3.5 作业响应时间随访问热度变化的对比图3.5 本章小结本文设计的动态副本因子调整改进策略主要解决了云环境下静态副本机制存在的局限性,针对什么时候触发副本因子调整以及如何进行副本因子调整作出了相关的算法处理说明。结合云环境下多用户文件访问的热度差异和不同决策时间区间内的访问热度值,对副本因子进行动态的调整,可以在提升文件访问性能的同时降低存储空间的消耗。后续的研究工作将考虑如何进一步优化副本因子调整算法,以更好地适应复杂云环境下文件突发性的访问需求。
本文编号:3425303
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3425303.html