当前位置:主页 > 科技论文 > 计算机论文 >

编码容错的云存储系统与性能优化

发布时间:2018-10-04 19:54
【摘要】:在云计算的时代大潮中,海量数据的存储与数据分析成为了IT行业巨头角逐的竞技场,云计算基础设施之一的分布式文件系统受到了广泛的关注与研究应用。而目前,最流行的分布式文件系统容错机制的多副本机制,虽然在大规模并行计算上有好的表现,但在控制冗余开销、提高系统的容错等级上的表现远远不及纠删码容错机制,纠删码在这方面则有着不可比拟的优势。设计并实现一个编码容错的分布式文件系统,支持不同的编码方案与容错机制,使得用户与应用开发者能够根据情况选择最合适的策略与机制,在数据爆发时代节省数据存储量,提高系统运行效率,具有非常重要的意义。为了研究编码容错云存储系统的性能,本文以开源云存储平台HDFS为基础,通过融合信息论编码技术,设计并实现了一个编码容错的云存储系统,该系统支持不同的容错策略与编码方案,支持尽可能多的文件基础操作以满足用户的需求,并对文件切分方案进行了研究,建立粒度可控的优化机制,大大提高了文件随机读和文件追加的性能。本文的工作内容与研究成果有1.设计并实现了编码通用的分布式文件系统。不同的容错机制在不同的指标上有着各自独有的优势,不同的编码方案有着不同的编解码效率与冗余开销,而不同的应用则有着不同的存储需求,因此,本文针对大规模数据应用设计并实现了一个编码普适容错的分布式文件系统,该系统运行在普通的商用存储服务器上,有着很好的容错性,并能够将多副本的容错机制作为编码的一种特殊情况包含进来,并支持各种不同的编码方案,使得用户与应用能够选择最适合其存储需求的方案。2.设计了一个基于传输单位的细粒度文件切分方案。基于多副本容错机制的GFS和基于纠删码的HDFS Raid等系统都采用了基于文件存储单位的粗粒度文件切分方案,该方案在编码文件系统中会造成很多文件基础操作,如随机读、文件追加的低效。对此,本文设计并实现了基于文件传输单位的细粒度文件切分方案,实验数据与理论分析表明,该方案在各种文件基础操作表现出不低于粗粒度文件切分方案的性能。3.在细粒度的文件切分方案的基础上,实现了高效的文件随机读和文件追加操作。在大数据的应用场景下,很多分布式文件系统设计理念为数据文件往往是一次写入、多次串行的只读。本文注意到随机读和文件追加也是很多应用的基础,细粒度文件切分方案能够高效的支持以上两种文件操作。因此本文的最后部分实现了高效的文件随机读和文件追加操作,并对比粗粒度切分方案予以分析其操作效率。
[Abstract]:In the era of cloud computing, mass data storage and data analysis has become the competition arena of the IT industry giants. Distributed file system, one of the cloud computing infrastructure, has received extensive attention and research and application. At present, the most popular multi-replica mechanism of distributed file system fault-tolerant mechanism, although it has a good performance in large-scale parallel computing, but in the control of redundant overhead, improve the fault-tolerance level of the system performance is far less than erasure code fault-tolerant mechanism. Erasure codes have incomparable advantages in this respect. A distributed file system with coding fault tolerance is designed and implemented to support different coding schemes and fault-tolerant mechanisms so that users and application developers can choose the most appropriate strategies and mechanisms according to the situation. It is of great significance to save data storage and improve system efficiency in the era of data burst. In order to study the performance of coding fault-tolerant cloud storage system, this paper designs and implements a coding fault-tolerant cloud storage system based on open source cloud storage platform HDFS. The system supports different fault-tolerant strategies and coding schemes, supports as many file infrastructure operations as possible to meet the needs of users, and studies the file segmentation scheme to establish an optimization mechanism with controllable granularity. It greatly improves the performance of random reading and file appending. The contents and research results of this paper are 1. A general distributed file system is designed and implemented. Different fault-tolerant mechanisms have their own unique advantages in different indexes, different coding schemes have different coding and decoding efficiency and redundant overhead, and different applications have different storage requirements. In this paper, we design and implement a distributed file system with universal coding fault tolerance for large-scale data applications. The system runs on a common commercial storage server and has good fault tolerance. The fault-tolerant mechanism of multiple replicas can be included as a special case of coding, and various coding schemes can be supported, so that users and applications can choose the scheme that is most suitable for their storage requirements. A fine-grained file segmentation scheme based on transport unit is designed. Systems such as GFS based on multi-replica fault-tolerant mechanism and HDFS Raid based on erasure code adopt coarse-grained file segmentation scheme based on file storage unit. This scheme will cause a lot of file basic operations in the coding file system, such as random reading. Inefficient file append. In this paper, a fine grained file segmentation scheme based on file transfer unit is designed and implemented. The experimental data and theoretical analysis show that the performance of this scheme is no less than that of coarse-grained file segmentation scheme. On the basis of fine-grained file segmentation scheme, efficient file random reading and file appending operation are realized. In big data's application scenario, many distributed file system design idea is that data file is always written once and read only serially. This paper notes that random reading and file appending are also the basis of many applications. The fine-grained file segmentation scheme can efficiently support the above two file operations. Therefore, in the last part of this paper, efficient random reading and file appending are realized, and the operation efficiency is analyzed by comparing coarse-grained segmentation scheme.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 李红;蓝光存储系统 光盘容量高达23G[J];信息记录材料;2004年01期

2 ;存储系统 金融行业应用卓越奖 医疗行业应用卓越奖[J];每周电脑报;2004年20期

3 诺拉;EMC Symmetrix DMX-3存储系统 超大容量 高速存取[J];中国计算机用户;2005年31期

4 谢世诚;;浪潮推出4Gb光纤存储系统[J];微型机与应用;2006年07期

5 ;昆腾分级存储系统[J];软件世界;2009年11期

6 ;超低功耗云存储系统或被地方政府看好[J];中国有线电视;2013年08期

7 汤赫男;;云存储系统的分析与应用研究[J];计算机光盘软件与应用;2013年24期

8 谌伟;;云存储系统的分析与应用探讨[J];数字技术与应用;2013年10期

9 雅君;跟上企业的匆匆脚步——利用HP SureStoreEXP256构筑企业存储系统[J];中国计算机用户;2000年08期

10 贾莉;;Symmetrix8000实现19TB存储[J];每周电脑报;2000年18期

相关会议论文 前10条

1 赵志刚;;存储系统在企业信息化中的应用[A];2005年安徽通信论文集[C];2006年

2 黄晓峰;张杰;;矿井信息中心存储系统设计[A];安全高效矿井机电装备及信息化技术——陕西省煤炭学会学术年会论文集(2011)[C];2011年

3 孙哲;李昌银;;构建核电高可用云存储系统[A];2012电力行业信息化年会优秀论文专辑[C];2012年

4 焦超;周天彤;李祥学;李建华;;面向灾备的高性能可信存储系统设计[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年

5 汪位龙;;设计院存储系统建设初探[A];中国公路学会计算机应用分会2004年年会学术论文集[C];2004年

6 梅松竹;李宗伯;;Storage 7000系列混合存储系统分析[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年

7 王克敏;张玺;胡江凯;王毅涛;;NWP资料归档方法及其存储系统的应用[A];中国气象学会2006年年会“中尺度天气动力学、数值模拟和预测”分会场论文集[C];2006年

8 孙哲;李昌银;;DeDu:基于云计算的冗余删除存储系统[A];电力行业新一代信息技术研讨会论文集[C];2011年

9 高小伍;党齐民;林晨;;校园网存储系统的研究与实现[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年

10 宫海林;郭长国;苑洪亮;王怀民;;支持事务的非结构化数据聚合存储系统GSL[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

相关重要报纸文章 前10条

1 ;第三季度中国存储系统市场达19.1亿元[N];中国高新技术产业导报;2005年

2 本报记者 薛斐;服务:存储系统的灵魂[N];计算机世界;2002年

3 单群一;惠普推出全新一体化存储系统[N];中国税务报;2007年

4 ;浪潮推出4Gb光纤存储系统[N];人民邮电;2006年

5 ;今年第二季度 存储系统市场价值达12.6亿元[N];人民邮电;2006年

6 郭;日立推出普及型存储系统[N];计算机世界;2007年

7 陈耀光;朗登 扛起存储系统设计院的大旗[N];中国企业报;2001年

8 ;富士通存储系统全面升级[N];网络世界;2009年

9 ;EMC亚洲生产制造中心落户深圳[N];网络世界;2009年

10 临履;存储系统有了“设计院”[N];网络世界;2001年

相关博士学位论文 前10条

1 赵雨虹;云存储系统资源调度技术研究[D];华中科技大学;2015年

2 陆承涛;存储系统性能管理问题的研究[D];华中科技大学;2010年

3 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年

4 罗东健;大规模存储系统高可靠性关键技术研究[D];华中科技大学;2011年

5 聂雪军;内容感知存储系统中信息生命周期管理关键技术研究[D];华中科技大学;2010年

6 王鹏;低密度奇偶校验码应用于存储系统的关键技术研究[D];华中科技大学;2013年

7 刁莹;用数学建模方法评价存储系统性能[D];哈尔滨工程大学;2013年

8 符青云;面向大规模流媒体服务的高性能存储系统研究[D];电子科技大学;2009年

9 王玉林;多节点容错存储系统的数据与缓存组织研究[D];电子科技大学;2010年

10 田敬;对等存储系统中的数据可用性与安全性研究[D];北京大学;2007年

相关硕士学位论文 前10条

1 冯汉超;基于Hadoop的分布式副本策略研究[D];河北工程大学;2015年

2 张明;IaaS中基于热点数据的存储系统研究与实现[D];哈尔滨工业大学;2015年

3 蒋静远;基于数据通道的非结构化数据多存储系统[D];浙江大学;2015年

4 郭晖;面向高清视频监控的流存储系统设计与实现[D];电子科技大学;2015年

5 许孟杰;嵌入式快速存储模块的研究与实现[D];中国舰船研究院;2015年

6 何洁和;面向POI的分布式结构化存储系统存储引擎设计与实现[D];电子科技大学;2014年

7 王晓;混合存储系统高效快照技术研究[D];北京理工大学;2015年

8 邱登峰;基于Hadoop可公共审计云存储的设计与实现[D];大连理工大学;2015年

9 张致元;电子商品存储系统设计与研究[D];复旦大学;2014年

10 刘秉煦;云存储环境下的混合存储算法研究与实现[D];上海交通大学;2015年



本文编号:2251666

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2251666.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户efc5e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com