当前位置:主页 > 科技论文 > 计算机论文 >

面向大数据的高效存储容量缩减技术研究

发布时间:2020-07-11 20:54
【摘要】:随着信息化的发展,全球数据量呈指数式增长,数据中心存储规模快速迈向了PB级甚至是EB级,其中包含了大量的冗余数据。这些冗余数据占用了大量的存储资源,导致存储系统性能降低,数据存储和管理成本增加等问题。在此背景下,存储容量缩减技术在不改变数据基本属性前提下,通过采用重复数据删除技术和数据压缩技术,有效地缩减数据量的规模,提高存储资源利用率,降低管理成本。存储容量缩减技术已经成为业界研究的热点,显示出重要的学术价值和应用价值。然而,大数据的规模巨大、类型繁多、冗余量庞大以及对数据处理的速度要求较高等特点,导致存储容量缩减技术在面对大数据应用时仍然存在许多需要解决的技术问题。例如如何降低数据分块时间开销,减少冗余数据块发现时间以及提高数据压缩速度和压缩率等方面。针对上述问题,从存储容量缩减技术的数据分块策略、冗余数据块的发现机制以及数据块的高速压缩机制等方面进行深入的研究。具体来说,主要从以下三个方面提出了创新性理论或方法:1.基于位串内容感知的数据分块策略(Bit-string Content-aware Chunking Strategy,BCCS):围绕影响数据分块性能的各种因素进行分析和讨论,实现了一种新的基于位串的数字签名技术,并在此基础上提出了BCCS。BCCS从数据块每个正文字节中抽取某一特定比特来构成窗口特征数据,并使用位操作替代传统的比较操作。该策略充分利用每一次失败的匹配尝试所带来的特征信息,尽量排除尽可能多的不能匹配位置,从中获取最大跳跃长度,从而加快二进制串的匹配过程,降低确定块边界的CPU资源消耗。实验结果表明,对于可变数据测试集,相对Rabin算法,BCCS的数据块划分速度最多可以提高197%;对于固定数据测试集,相对于FSP算法,BCCS速度仅仅降低10.8%,而其数据压缩率却较FSP的0.977提高到了1.206,可以提高20%。2.基于二级布隆过滤的冗余数据块发现机制(Redundant Chunk Query Mechanism based on Two-staged Bloom Filter,RCQM-TBF):针对数据指纹(FingerPrint,FP)数量巨大,不能完全存储在内存中,导致性能下降的问题,提出了RCQM-TBF。RCQM-TBF中第二级布隆过滤器作为第一级布隆过滤器结果的一个整体表现,其每一个比特位代表进入相同准二级假阳性误判状态的所有FP。对于FP假阳性访问,TBF通过降低二级布隆过滤机制中第一级和第二级过滤的假阳性误判率,快速判断新到达数据块的非存在性;对于FP正常性访问,TBF通过建立FP高速缓存链表和对应的FP预取机制来减少直接的硬盘访问,对新到达的数据块存在性进行快速判断;同时TBF创建了一个具有强全局散列特性的哈希函数族,减小碰撞发生的可能性。实验结果表明,对于非冗余测试数据集,RCQM-TBF的FP查询延迟性能和数据块的存储性能较采用标准布隆过滤算法的ZHU-BLOOM FILTER最多提升了28%;对于冗余测试数据集,RCQM-TBF的存储速度较ZHU-BLOOM FILTER最多可以提高100%到135%;当扩充服务器内存时,理论上RCQM-TBF可管理的存储数据容量最大可以达到64PB。3.基于多矩阵并行匹配的高速数据压缩机制(Parallel Matching LZSS based on Multiple Matrix,PMLZSS-MM):为了加快压缩速度,并提高存储容量利用率,提出了PMLZSS-MM。该机制实现了一种GPU平台下的多矩阵并行匹配工作模式,将需要压缩的数据动态划分多个字典串和预读串,分别将其作为矩阵的纵轴和横轴,分解到GPU中的不同线程块中,形成多个矩阵进行并行匹配;而对于需串行执行的压缩编码生成部分,仍然在CPU上执行。通过合理的调度策略,协调两者共同完成任务。实验结果表明,PMLZSS-MM容量缩减率有所下降。相对于经典CPU平台上的串行LZSS算法,容量缩减率最多下降了1.5%。但PMLZSS-MM显著提高了大数据的压缩速度,当字典窗口设置为4KB,预读数据窗口设置为64B时,相对于CPU平台上的串行LZSS算法,其压缩吞吐率最大提高了18倍;相对于GPU平台上的并行CULZSS算法,其压缩吞吐率最大提高了20.8%。综上所述,通过采用BCCS,有效地减小数据分块过程中的CPU资源消耗,提高发现块边界的速度;采用RCQM-TBF,提高数据指纹查询速度,获取高效的查询速度;引入PMLZSS-MM,进一步补充和优化前两项技术的不足,获取更高的存储容量缩减率。
【学位授予单位】:华中科技大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TP333
【图文】:

对比图,数据,对比图,气象预测


没有办法提前知道其结构的数据,如文本、图像、视存储在关系数据库中,而是以文件形式存储,并且通快速度。大数据是一种以实时数据处理、实时结果导包含两个方面:一方面是数据产生得快,例如,当用户日志文件数据、传感器网络数据、GPS 产生的位置非常庞大的数据量;另一方面是数据处理也要求快速。,随着时间流逝,数据价值会折旧甚至变为无价值。感器的数据产生几秒之后就失去意义了,而气象预测信也将变得毫无意义。在实际的应用中,例如社交网络数据、电子商务应用800000tes产生的数据 可用存储容量

位串,数量比,模式,数据集


11bit 12bit 13bit 14bit图 2.20 采用不同长度的模式位串划分 Chunk 数量比较如图2.20所示,图中横轴表示5个子数据集,纵轴表示Chunking后产生的Chunk数量;图2.21,图中横轴表示5个子数据集,纵轴表示Chunking后的Chunk冗余率。可以观察到,最终产生的Chunk数量与模式位串的长度紧密相关。随着模式长度的增大,所得到的Chunk长度增加,每个子数据集Chunking后产生的Chunk数量按比例减少。当选用模式长度为13bit(对应Chunk预期长度为8KB)时

冗余率,位串,模式,长度


图 2.20 采用不同长度的模式位串划分 Chunk 数量比较如图2.20所示,图中横轴表示5个子数据集,纵轴表示Chunking后产生的Chunk数量;图2.21,图中横轴表示5个子数据集,纵轴表示Chunking后的Chunk冗余率。可以观察到,最终产生的Chunk数量与模式位串的长度紧密相关。随着模式长度的增大,所得到的Chunk长度增加,每个子数据集Chunking后产生的Chunk数量按比例减少。当选用模式长度为13bit(对应Chunk预期长度为8KB)时,其产生的Chunk数量仅仅为模式长度为11bit(对应Chunk预期长度为2KB)时的25%~35%左右,而Chunk的冗

【相似文献】

相关期刊论文 前10条

1 史江瑾;王洪生;汪琳;初剑;;存储容量单位表示方法的探讨[J];电子工程师;2006年03期

2 赵国求;;计算机知识点滴[J];武钢技术;1985年01期

3 颜世科,李桂芬;单板(单片)机系统中存储容量大于2~N的扩展方法[J];电子与自动化;1997年05期

4 方卉;存储容量为130MB的软磁盘驱动器[J];计算机工程;1998年12期

5 任伏兵;一种扩展8096存储容量的方法[J];自动化仪表;1994年12期

6 ;不断增大的存储容量[J];个人电脑;1997年10期

7 AlixL.Paultre;邮票大小的全息媒体拥有高达1GB的存储容量[J];今日电子;2004年07期

8 Matthew Kendall,Duncan Furness;提高便携式消费电子的存储容量[J];电子产品世界;2005年07期

9 周福新;;大存储容量的激光卡[J];激光与光电子学进展;1986年01期

10 冯蓓;;音乐之旅[J];通信技术;2004年06期

相关会议论文 前1条

1 李晓凡;陈岳瑞;孔宇菲;任久春;缪健;陈良尧;;新型三维高密度光存储方法的研究[A];上海市激光学会2005年学术年会论文集[C];2005年

相关重要报纸文章 前10条

1 通讯员  邱克忠 记者  贺耀堂;存储容量苏北最大[N];连云港日报;2006年

2 丁小鱼邋编译;学会管理存储容量[N];计算机世界;2007年

3 ;如何增加本地存储容量[N];网络世界;2009年

4 ;五个步骤改进存储容量规划[N];网络世界;2009年

5 本报记者 邹本X;移动存储容量也“短斤缺两”[N];中国消费者报;2005年

6 苗建 编译;如何应对存储容量危机?[N];计算机世界;2010年

7 记者 余瀛波;智能手机存储容量虚标成投诉热点[N];法制日报;2013年

8 张驰;从容应对存储容量危机[N];网络世界;2010年

9 记者 王惜纯;手机存储容量投诉量不小[N];中国质量报;2013年

10 编译 郭涛;有效遏制存储年支出增长10%[N];中国计算机报;2009年

相关博士学位论文 前1条

1 周斌;面向大数据的高效存储容量缩减技术研究[D];华中科技大学;2015年

相关硕士学位论文 前2条

1 伊莉娅;面向服务的未来互联网络副本存储技术及策略[D];北京邮电大学;2015年

2 戴健雄;VXI总线大存储容量扫描A/D模块研制[D];哈尔滨工业大学;2007年



本文编号:2750916

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2750916.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1c068***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com