当前位置:主页 > 科技论文 > 计算机论文 >

基于网络编码的云存储系统中负载均衡技术研究

发布时间:2018-09-10 16:43
【摘要】:当今的人们生活在IT技术日新月异的信息数字时代,Internet技术得到了前所未有的迅速发展与广泛应用。互联网的发展重心由硬件设备和软件应用转向海量数据存储,消费数据存储服务的主体渐渐由企业用户转向个人用户,个体所产生的绝大部分数据均为图片、文档、视频等非结构化数据。在可扩展性,高可用性,容错处理以及延时访问方面的限制,使得传统的IT存储技术不能适应海量存储的需求。云存储使得存储容量可以通过低成本节点单位扩展来增加,再加上其高可用性和可靠性,安全存储等特性,越来越多的大公司开始将目光转向以分布式存储为基础的云存储这一新兴市场的争夺,比较出名的商业云存储服务有Apache对GFS的开源实现Hadoop,微软的Live Skydrive和Dropbox, Amazon高可用和可伸缩的分布式数据存储系统Dynamo等。其中HDFS (Hadoop Distributed File System)由于其良好特性和开源实现,渐渐成为云存储基本支撑平台的主流应用文件系统。HDFS采用多副本的复制冗余技术,存储空间和带宽传输资源有一定的浪费,在数据海量增长的情况下,这种资源消耗会呈线性方式增加,这样一个文件操作频繁的系统长期运行后,后期的维护成本会比较高。针对该问题,我们以HDFS为基础,通过融入信息论数据容错编码相关技术,建立了一个基于网络编码的分布式云存储系统NC-HDFS,在有效降低冗余度的基础上提高了系统容错能力。本文以支持系统资源监控和负载均衡调度为目标,对NC-HDFS中的性能优化技术开展了研究,加入一定的负载均衡机制来优化读写,主要贡献有以下三点:(1)针对基于网络编码的分布式存储系统NC-HDFS的新特征和HDFS仅对磁盘容量相关参数进行监控这一缺陷,设计并实现了资源监控模块,支持对CPU、内存、磁盘I/O利用率等参数的实时收集与管理,为动态负载均衡优化设计提供了决策依据。(2)针对资源状态信息的实时更新问题,进一步优化了HDFS的心跳协议及名称节点端保存数据节点性能状态的相关数据结构,使新加入的节点参考数据能及时通过协议由名称节点接受并处理,在支持多维信息更新的同时,为名称节点了解数据节点的动态变化信息提供支持。(3)针对NC-HDFS的数据读写需求,建立了基于多属性约束的动态请求调度机制,实现写文件时n个文件块所在数据节点的选择和读文件时n个数据节点中k个的选择,有效提高了读写文件的效率,并达到了系统内资源使用的均衡。
[Abstract]:Nowadays, IT technology has been developed rapidly and widely used in the information digital age, which is characterized by the rapid development of IT technology. The focus of the development of the Internet has shifted from hardware equipment and software applications to massive data storage, and the main body of consumer data storage services has gradually shifted from enterprise users to individual users. Most of the data generated by individuals are pictures and documents. Unstructured data such as video. Due to the limitations of scalability, high availability, fault-tolerant processing and delayed access, the traditional IT storage technology can not meet the needs of mass storage. Cloud storage allows storage capacity to be increased through low-cost node unit expansion, plus its high availability and reliability, secure storage, etc. A growing number of big companies are turning to the emerging market of cloud storage based on distributed storage. The well-known commercial cloud storage services include Apache's open source implementation of GFS, Hadoop, Microsoft's Live Skydrive and Dropbox, Amazon's highly available and scalable distributed data storage system, Dynamo, and so on. Because of its good characteristics and open source implementation, HDFS (Hadoop Distributed File System) has gradually become the mainstream application file system. HDFS, which is the basic support platform of cloud storage, uses multi-copy duplication redundancy technology, and the storage space and bandwidth transfer resources are wasted to a certain extent. In the case of massive increase of data, the consumption of this kind of resources will increase linearly. After a system with frequent file operation runs for a long time, the later maintenance cost will be higher. To solve this problem, we build a distributed cloud storage system (NC-HDFS,) based on network coding, which is based on HDFS and integrates information theory data fault-tolerant coding technology, and improves the system's fault-tolerant ability on the basis of reducing redundancy effectively. Aiming at supporting system resource monitoring and load balancing scheduling, this paper studies the performance optimization technology in NC-HDFS, and adds a certain load balancing mechanism to optimize reading and writing. The main contributions are as follows: (1) aiming at the new features of distributed storage system (NC-HDFS) based on network coding and the defect that HDFS only monitors the relevant parameters of disk capacity, a resource monitoring module is designed and implemented to support the memory of CPU,. The real-time collection and management of disk I / O utilization ratio and other parameters provide a decision basis for dynamic load balancing optimization design. (2) aiming at the real-time update of resource status information, Furthermore, the heartbeat protocol of HDFS and the data structure related to the storage of the performance state of the data node at the name node end are optimized, so that the new node reference data can be received and processed by the name node in time through the protocol. At the same time, it provides support for the name node to know the dynamic change information of the data node. (3) aiming at the data reading and writing requirement of NC-HDFS, a dynamic request scheduling mechanism based on multi-attribute constraint is established. The selection of data nodes in n file blocks and k in reading files is realized, which effectively improves the efficiency of reading and writing files, and achieves the balance of resource utilization in the system.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP333

【相似文献】

相关期刊论文 前10条

1 李红;蓝光存储系统 光盘容量高达23G[J];信息记录材料;2004年01期

2 ;存储系统 金融行业应用卓越奖 医疗行业应用卓越奖[J];每周电脑报;2004年20期

3 诺拉;EMC Symmetrix DMX-3存储系统 超大容量 高速存取[J];中国计算机用户;2005年31期

4 谢世诚;;浪潮推出4Gb光纤存储系统[J];微型机与应用;2006年07期

5 ;昆腾分级存储系统[J];软件世界;2009年11期

6 ;超低功耗云存储系统或被地方政府看好[J];中国有线电视;2013年08期

7 汤赫男;;云存储系统的分析与应用研究[J];计算机光盘软件与应用;2013年24期

8 谌伟;;云存储系统的分析与应用探讨[J];数字技术与应用;2013年10期

9 雅君;跟上企业的匆匆脚步——利用HP SureStoreEXP256构筑企业存储系统[J];中国计算机用户;2000年08期

10 贾莉;;Symmetrix8000实现19TB存储[J];每周电脑报;2000年18期

相关会议论文 前10条

1 赵志刚;;存储系统在企业信息化中的应用[A];2005年安徽通信论文集[C];2006年

2 黄晓峰;张杰;;矿井信息中心存储系统设计[A];安全高效矿井机电装备及信息化技术——陕西省煤炭学会学术年会论文集(2011)[C];2011年

3 孙哲;李昌银;;构建核电高可用云存储系统[A];2012电力行业信息化年会优秀论文专辑[C];2012年

4 焦超;周天彤;李祥学;李建华;;面向灾备的高性能可信存储系统设计[A];第十一届保密通信与信息安全现状研讨会论文集[C];2009年

5 汪位龙;;设计院存储系统建设初探[A];中国公路学会计算机应用分会2004年年会学术论文集[C];2004年

6 梅松竹;李宗伯;;Storage 7000系列混合存储系统分析[A];2009年中国高校通信类院系学术研讨会论文集[C];2009年

7 王克敏;张玺;胡江凯;王毅涛;;NWP资料归档方法及其存储系统的应用[A];中国气象学会2006年年会“中尺度天气动力学、数值模拟和预测”分会场论文集[C];2006年

8 孙哲;李昌银;;DeDu:基于云计算的冗余删除存储系统[A];电力行业新一代信息技术研讨会论文集[C];2011年

9 高小伍;党齐民;林晨;;校园网存储系统的研究与实现[A];中国高等教育学会教育信息化分会第十次学术年会论文集[C];2010年

10 宫海林;郭长国;苑洪亮;王怀民;;支持事务的非结构化数据聚合存储系统GSL[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年

相关重要报纸文章 前10条

1 ;第三季度中国存储系统市场达19.1亿元[N];中国高新技术产业导报;2005年

2 本报记者 薛斐;服务:存储系统的灵魂[N];计算机世界;2002年

3 单群一;惠普推出全新一体化存储系统[N];中国税务报;2007年

4 ;浪潮推出4Gb光纤存储系统[N];人民邮电;2006年

5 ;今年第二季度 存储系统市场价值达12.6亿元[N];人民邮电;2006年

6 郭;日立推出普及型存储系统[N];计算机世界;2007年

7 陈耀光;朗登 扛起存储系统设计院的大旗[N];中国企业报;2001年

8 ;富士通存储系统全面升级[N];网络世界;2009年

9 ;EMC亚洲生产制造中心落户深圳[N];网络世界;2009年

10 临履;存储系统有了“设计院”[N];网络世界;2001年

相关博士学位论文 前10条

1 赵雨虹;云存储系统资源调度技术研究[D];华中科技大学;2015年

2 陆承涛;存储系统性能管理问题的研究[D];华中科技大学;2010年

3 聂雪军;内容感知存储系统中信息信息生命周期管理关键技术研究[D];华中科技大学;2011年

4 罗东健;大规模存储系统高可靠性关键技术研究[D];华中科技大学;2011年

5 聂雪军;内容感知存储系统中信息生命周期管理关键技术研究[D];华中科技大学;2010年

6 王鹏;低密度奇偶校验码应用于存储系统的关键技术研究[D];华中科技大学;2013年

7 刁莹;用数学建模方法评价存储系统性能[D];哈尔滨工程大学;2013年

8 符青云;面向大规模流媒体服务的高性能存储系统研究[D];电子科技大学;2009年

9 王玉林;多节点容错存储系统的数据与缓存组织研究[D];电子科技大学;2010年

10 田敬;对等存储系统中的数据可用性与安全性研究[D];北京大学;2007年

相关硕士学位论文 前10条

1 冯汉超;基于Hadoop的分布式副本策略研究[D];河北工程大学;2015年

2 张明;IaaS中基于热点数据的存储系统研究与实现[D];哈尔滨工业大学;2015年

3 蒋静远;基于数据通道的非结构化数据多存储系统[D];浙江大学;2015年

4 郭晖;面向高清视频监控的流存储系统设计与实现[D];电子科技大学;2015年

5 许孟杰;嵌入式快速存储模块的研究与实现[D];中国舰船研究院;2015年

6 何洁和;面向POI的分布式结构化存储系统存储引擎设计与实现[D];电子科技大学;2014年

7 王晓;混合存储系统高效快照技术研究[D];北京理工大学;2015年

8 邱登峰;基于Hadoop可公共审计云存储的设计与实现[D];大连理工大学;2015年

9 张致元;电子商品存储系统设计与研究[D];复旦大学;2014年

10 刘秉煦;云存储环境下的混合存储算法研究与实现[D];上海交通大学;2015年



本文编号:2235020

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2235020.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户52869***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com