当前位置:主页 > 科技论文 > 计算机论文 >

Hadoop中数据放置优化机制的研究与实现

发布时间:2020-10-12 06:53
   Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)作为新一代企业级存储架构的核心,是云计算和大数据时代应对存储容量压力、I/O性能瓶颈、存储成本危机等诸多挑战的重要支撑技术。HDFS将大数据进行分块存储并按照一定的数据放置策略分布存储到各个数据节点,来提升数据中心的存储和处理效率,从而达到整个云平台的高可用性和高可靠性等目标。然而,随着云计算应用的不断拓展和数据中心模式的不断演化,上层大数据应用所产生的业务数据呈现出越来越明显的“冷”、“热”属性,给HDFS的数据管理带来了新的挑战:一方面,对于存储占比较大且访问频率较低的冷数据,如果仍采用HDFS默认的三副本冗余策略,将会给数据中心带来巨大的存储代价;另一方面,数据量的剧增使得数据中心不断扩容,节点异构性愈发突显,HDFS机架感知的数据放置策略由于忽略了节点及数据热度的异构性,导致节点负载和数据资源分配不均,从而降低了存储系统的整体性能。为了解决以上问题,本硕士论文针对数据热度划分和数据放置优化两个关键技术,研究相关的机制和算法,期望在保证数据可靠性的同时,能够减少存储代价并提高系统整体性能。具体地,本论文从以下三个方面开展研究工作:首先,研究基于时间序列的数据热度划分方法。针对现有HDFS三副本冗余策略忽略了数据热度导致存储成本过高的问题,提出了热度感知划分算法,即得到用户对于数据访问频率的时间序列,计算出时间序列的DTW距离,然后通过K-means聚类算法,将时间序列转化为数据的热度属性,为后面数据放置策略提供基础。其次,研究热度敏感的数据放置优化策略。针对HDFS数据放置过程中忽视了节点异构性导致系统性能下降的问题,对于冷、热数据分别提出了相应的放置优化策略:对于访问频率高的热数据,提出了一个动态副本感知的数据放置方法,用以提高存储系统的整体性能;对于访问频率低的冷数据,提出了一个基于纠删码冗余的数据放置机制,在保证数据可用性的前提下,降低存储成本。最后,基于上述理论研究成果,设计并开发面向HDFS的数据放置优化系统KittyTwinkle。通过增加数据统计模块并修改数据放置过程等,实现HDFS中数据放置的优化管理,并部署于东南大学云计算中心环境中进行应用验证。实验结果表明,本文所提基于时间序列的数据热度划分方法和热度敏感的数据放置优化策略,在保证数据可用性的同时,能够显著地减少数据中心的存储代价,并能有效提升存储系统的性能,为大数据的存储和管理提供了行之有效的解决方案。
【学位单位】:东南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP333;TP311.13
【部分图文】:

原理图,分布式文件系统,原理


图 1 - 2 Hadoop 分布式文件系统原理Hadoop 分布式文件系统的冗余方式是静态的复制策略,即数据存储时有三个副本且运行过程中不再改变。但静态复制策略却不能依据环境的变化做出动态的调整,同时三副本策略的存储效率仅为 33%,易造成存储资源的浪费。另一方面,大数据的访问过程同样遵循着 80/20 原则[14],即大部分应用在其访问情况中,80%的访问对象都固定地访问 20%的存储数据。同时,大数据的数据量浩大,而访问请求只集中在小部分的数据上,其余数据只有较少的访问请求。这些被高频请求的小部分数据被称为热数据,请求量稀少的大部分数据被称为冷数据。经统计分析发现,大部分 Hadoop 集群数据块的访问具有较强的规律性,数据均表现出明显的冷热属性。文献[15]通过对 Yahoo!公司 HDFS 集群内部数据块访问日志分析得出,90.26%的数据块都会在其上传 2 天内进行第一次访问,89.61%的数据块都会在其上传后的 10 天内进行最后一次访问,40%的数据块最后一次读取时间到最后删除的时间跨度都不会超过 20 天。因此,对于一个数据中心,在当前这种大部分都是冷数据的情况下,如果所有的数据都采用静态三副本策略实现冗余

原理图,纠删码,原理图


算法[29] 高读写可用性e-Like 算法[30] 负载均衡P 算法[31] 减小平均响应时间纠删码的放置策略码源于通信及其相关学科,主要解决了数据传输中的检错和纠错问用到存储系统中,并且其根据存储系统应用的特点逐步得到相应的统中,纠删码技术[32]主要是利用编码算法将原始数据转化为冗余据和冗余数据一起存储起来进行容错。如图 2 - 1 所示,其基本思路即矩阵数据 D,通过相应的编码计算(乘以矩阵数据 B),得到 k 。对于这 n = m + k 个编码后元素,如果任意的 k 个元素出错(包据出错)时,原始的 m 个数据都可以通过对应的重构编码算法计算式冗余会增加 200%的存储开销,而纠删码的冗余方式具有冗余度幅度节约存储空间等优点,这对于不经常访问的冷数据具有非常重

中欧,时间序列,欧式距离


东南大学硕士学位论文( ) = ( ) 其中 表示点 在第 i 维的值,同理 。从上述定义可以知道欧式距离适合是“匹配”的距离计算,即每一点都有另一对应,而对于计算时间序列的距离来说,两个时间序列的长度是不一定相等文使用 DTW 距离来度量两个时间序列的距离,从而得到其相似程度。DTW 表示 DynamicTimeWarping,其原理是找到两个时间序列“对应”的相似通过计算这些点的距离和来表示两个时间序列的相似程度。这里的“对应”仅的意思,即一个点可以对应多个点,点与点之间存在着一对多、多对一、一对映射关系。从时间维度上将点扭曲(Warping)得到序列总体的最小距离称为 D如图 3 - 1 所示,该图展示了欧式距离和 DTW 距离的区别。
【相似文献】

相关期刊论文 前10条

1 古仙;UUCP网分析与移植通过鉴定[J];计算机应用研究;1988年01期

2 万天明,孟志青;一种基于C/S的分布式PowerBuilder数据传送方法[J];计算机系统应用;2000年04期

3 赵学华;网络数据传送方法[J];广西气象;1999年03期

4 刘念君,许向东,范强;运用网络技术实现无线数据传送[J];水运工程;2000年04期

5 李一武,李乐民;单跳波分复用网络中的优化数据传送策略[J];通信学报;1998年10期

6 赵郁森;;SD2003系统数据传送软件包[J];中国原子能科学研究院年报;1986年00期

7 谢峰;;ASP.NET页面间数据传送方法研究[J];科技信息;2012年08期

8 董慧如;SCSI—2的高速数据传送技术与进展[J];电子计算机外部设备;1994年04期

9 罗诗星;浅谈数据传送过程中的“数据头”[J];中国有线电视;2001年20期

10 庄哲民;提高单片机数据传送速度的新方法[J];自动化仪表;1999年08期


相关博士学位论文 前5条

1 林路;基于面向数据的智慧园区体系结构关键技术研究[D];成都理工大学;2018年

2 吴礼华;基于手机记录数据的城市空间感知及应用研究[D];武汉大学;2016年

3 陈靖;带实时的传值与移动系统研究[D];中国科学院研究生院(软件研究所);2003年

4 董赞强;基于网络编码的数据通信技术研究[D];南京邮电大学;2013年

5 王海勇;无线传感器网络数据可靠传输关键技术研究[D];南京邮电大学;2016年


相关硕士学位论文 前10条

1 王熊;网络空间国家大数据主权安全危机治理研究[D];南京师范大学;2018年

2 杜瑶;Hadoop中数据放置优化机制的研究与实现[D];东南大学;2018年

3 闵少颖;云数据精确修复方法研究[D];武汉科技大学;2018年

4 张沁馨;基于PXIe高速接口的高速数据传输平台的设计与实现[D];电子科技大学;2018年

5 宋秉华;车联网大数据处理系统的设计与实现[D];中国科学院大学(中国科学院工程管理与信息技术学院);2017年

6 马力;面向高频证券大数据的流式处理框架及关键技术研究[D];西北大学;2017年

7 董淮南;新型数据传送协议及其实现验证[D];西安电子科技大学;2006年

8 蔡龙;扫描电镜图像数据采集传输系统的设计[D];南京师范大学;2014年

9 余尚仁;基于Web的数据截获分析与网络攻击技术研究[D];武汉工程大学;2017年

10 徐超;基于分片技术的无线传感网数据隐私保护算法研究[D];南京邮电大学;2017年



本文编号:2837811

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2837811.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8cd5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com