Hadoop中数据放置优化机制的研究与实现
【学位单位】:东南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP333;TP311.13
【部分图文】:
图 1 - 2 Hadoop 分布式文件系统原理Hadoop 分布式文件系统的冗余方式是静态的复制策略,即数据存储时有三个副本且运行过程中不再改变。但静态复制策略却不能依据环境的变化做出动态的调整,同时三副本策略的存储效率仅为 33%,易造成存储资源的浪费。另一方面,大数据的访问过程同样遵循着 80/20 原则[14],即大部分应用在其访问情况中,80%的访问对象都固定地访问 20%的存储数据。同时,大数据的数据量浩大,而访问请求只集中在小部分的数据上,其余数据只有较少的访问请求。这些被高频请求的小部分数据被称为热数据,请求量稀少的大部分数据被称为冷数据。经统计分析发现,大部分 Hadoop 集群数据块的访问具有较强的规律性,数据均表现出明显的冷热属性。文献[15]通过对 Yahoo!公司 HDFS 集群内部数据块访问日志分析得出,90.26%的数据块都会在其上传 2 天内进行第一次访问,89.61%的数据块都会在其上传后的 10 天内进行最后一次访问,40%的数据块最后一次读取时间到最后删除的时间跨度都不会超过 20 天。因此,对于一个数据中心,在当前这种大部分都是冷数据的情况下,如果所有的数据都采用静态三副本策略实现冗余
算法[29] 高读写可用性e-Like 算法[30] 负载均衡P 算法[31] 减小平均响应时间纠删码的放置策略码源于通信及其相关学科,主要解决了数据传输中的检错和纠错问用到存储系统中,并且其根据存储系统应用的特点逐步得到相应的统中,纠删码技术[32]主要是利用编码算法将原始数据转化为冗余据和冗余数据一起存储起来进行容错。如图 2 - 1 所示,其基本思路即矩阵数据 D,通过相应的编码计算(乘以矩阵数据 B),得到 k 。对于这 n = m + k 个编码后元素,如果任意的 k 个元素出错(包据出错)时,原始的 m 个数据都可以通过对应的重构编码算法计算式冗余会增加 200%的存储开销,而纠删码的冗余方式具有冗余度幅度节约存储空间等优点,这对于不经常访问的冷数据具有非常重
东南大学硕士学位论文( ) = ( ) 其中 表示点 在第 i 维的值,同理 。从上述定义可以知道欧式距离适合是“匹配”的距离计算,即每一点都有另一对应,而对于计算时间序列的距离来说,两个时间序列的长度是不一定相等文使用 DTW 距离来度量两个时间序列的距离,从而得到其相似程度。DTW 表示 DynamicTimeWarping,其原理是找到两个时间序列“对应”的相似通过计算这些点的距离和来表示两个时间序列的相似程度。这里的“对应”仅的意思,即一个点可以对应多个点,点与点之间存在着一对多、多对一、一对映射关系。从时间维度上将点扭曲(Warping)得到序列总体的最小距离称为 D如图 3 - 1 所示,该图展示了欧式距离和 DTW 距离的区别。
【相似文献】
相关期刊论文 前10条
1 古仙;UUCP网分析与移植通过鉴定[J];计算机应用研究;1988年01期
2 万天明,孟志青;一种基于C/S的分布式PowerBuilder数据传送方法[J];计算机系统应用;2000年04期
3 赵学华;网络数据传送方法[J];广西气象;1999年03期
4 刘念君,许向东,范强;运用网络技术实现无线数据传送[J];水运工程;2000年04期
5 李一武,李乐民;单跳波分复用网络中的优化数据传送策略[J];通信学报;1998年10期
6 赵郁森;;SD2003系统数据传送软件包[J];中国原子能科学研究院年报;1986年00期
7 谢峰;;ASP.NET页面间数据传送方法研究[J];科技信息;2012年08期
8 董慧如;SCSI—2的高速数据传送技术与进展[J];电子计算机外部设备;1994年04期
9 罗诗星;浅谈数据传送过程中的“数据头”[J];中国有线电视;2001年20期
10 庄哲民;提高单片机数据传送速度的新方法[J];自动化仪表;1999年08期
相关博士学位论文 前5条
1 林路;基于面向数据的智慧园区体系结构关键技术研究[D];成都理工大学;2018年
2 吴礼华;基于手机记录数据的城市空间感知及应用研究[D];武汉大学;2016年
3 陈靖;带实时的传值与移动系统研究[D];中国科学院研究生院(软件研究所);2003年
4 董赞强;基于网络编码的数据通信技术研究[D];南京邮电大学;2013年
5 王海勇;无线传感器网络数据可靠传输关键技术研究[D];南京邮电大学;2016年
相关硕士学位论文 前10条
1 王熊;网络空间国家大数据主权安全危机治理研究[D];南京师范大学;2018年
2 杜瑶;Hadoop中数据放置优化机制的研究与实现[D];东南大学;2018年
3 闵少颖;云数据精确修复方法研究[D];武汉科技大学;2018年
4 张沁馨;基于PXIe高速接口的高速数据传输平台的设计与实现[D];电子科技大学;2018年
5 宋秉华;车联网大数据处理系统的设计与实现[D];中国科学院大学(中国科学院工程管理与信息技术学院);2017年
6 马力;面向高频证券大数据的流式处理框架及关键技术研究[D];西北大学;2017年
7 董淮南;新型数据传送协议及其实现验证[D];西安电子科技大学;2006年
8 蔡龙;扫描电镜图像数据采集传输系统的设计[D];南京师范大学;2014年
9 余尚仁;基于Web的数据截获分析与网络攻击技术研究[D];武汉工程大学;2017年
10 徐超;基于分片技术的无线传感网数据隐私保护算法研究[D];南京邮电大学;2017年
本文编号:2837811
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2837811.html