分布式文件系统中的若干关键算法研究
本文选题:锁无关消息队列 + 流水线 ; 参考:《南京大学》2013年硕士论文
【摘要】:随着社会、经济、互联网的高速发展,全球每年产生的数据量正呈几何数量级的速度增长,人类已经进入了大数据的时代。如何高效、可靠的存储、访问这些大数据,一直是企业界、学术界研究的热点。过去的数据存储大都是集中式的存储方式,而随着数据量的高速增长,集中式的存储方式在面对日益增长的存储、访问需求时,计算资源、IO资源、网络资源和存储资源都将会出现瓶颈。近十年来,人们意识到,可以利用大量廉价的计算机组成的计算机集群来解决日益增长的存储、计算、网络访问需求。现在,集群已经成为主流的高性能计算机体系架构。在集群上搭建分布式文件系统,也成为当今解决海量数据存储、访问的主流解决方案。本文针对面向集群计算的分布式文件系统中的若干关键问题进行了研究,主要工作如下:◇提出并实现了一种锁无关的消息队列访问算法。当前市场上流行的分布式文件系统中的每个服务器大都采取了多线程的架构方案。网络模块是一个单独的线程,通过一个基于锁的消息队列和其它处理业务逻辑的线程进行通信。当分布式文件系统中访问量增大时,锁冲突造成的效率下降是网络模块的一个性能瓶颈。本文提出了一种锁无关的网络消息队列访问算法,有效地解决了一个读者、一个写者环境下锁带来的性能问题。◇提出并实现了一种支持流水线式访问的多数据服务器访问算法。分布式文件系统中的数据是分散存储在不同数据服务器上的,同时访问多个数据需要一个分布式互斥算法,当前的分布式文件系统大多采取锁管理器的方法。本文提出了一种新的分布式互斥算法,充分利用了分布式集群中数据访问的“流水线”特征,使得资源利用最大化,有效解决了锁管理服务器带来的访问延迟问题。◇提出并实现了一种支持动态增减决策者的分布式一致性算法。分布式一致性算法是分布式文件系统中使用的基础算法之一,传统的分布式一致性算法,例如Paxos算法,大都不支持增减决策者。本文提出了改进的Paxos算法,可以在决策的过程中动态增减决策者,有效解决了使用传统一致性算法时无法扩展系统的问题。
[Abstract]:With the rapid development of society, economy and Internet, the amount of data produced in the world is increasing at a geometric order of magnitude every year. Human beings have entered the era of big data.How to store and access these big data efficiently and reliably has always been a hot spot in business and academic circles.In the past, most of the data storage was centralized storage, but with the rapid growth of data, the centralized storage in the face of increasing storage, access requirements, computing resources IO resources,Network resources and storage resources will appear bottleneck.In the last decade, people have realized that a large number of cheap computer clusters can be used to solve the growing demand for storage, computing, and network access.Now, cluster has become the mainstream of high-performance computer architecture.Building distributed file system on cluster has become the mainstream solution for mass data storage and access.In this paper, some key problems in distributed file system for cluster computing are studied. The main work is as follows: a lock independent message queue access algorithm is proposed and implemented.At present, most of the distributed file systems in the market adopt multi-thread architecture.A network module is a single thread that communicates through a lock-based message queue and other threads that handle business logic.When the traffic in distributed file system increases, the efficiency due to lock conflict is a bottleneck of network module performance.In this paper, a locking independent network message queue access algorithm is proposed, which effectively solves the problem of a reader.This paper proposes and implements a multi-data server access algorithm which supports pipeline type access.The data in distributed file system is distributed and stored on different data servers. It needs a distributed mutex algorithm to access multiple data at the same time. Most of the current distributed file systems adopt the method of lock manager.In this paper, a new distributed mutex algorithm is proposed, which makes full use of the "pipeline" feature of data access in distributed cluster, and makes the maximum utilization of resources.The problem of access delay caused by lock management server is solved effectively. A distributed consistency algorithm supporting dynamic decision makers is proposed and implemented.Distributed consistency algorithm is one of the basic algorithms used in distributed file system. Most of the traditional distributed consistency algorithms, such as Paxos algorithm, do not support the increase or decrease of decision makers.In this paper, an improved Paxos algorithm is proposed, which can dynamically increase or decrease the decision makers in the process of decision making, and effectively solves the problem that the system can not be extended by using the traditional consistency algorithm.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:TP338.8
【相似文献】
相关期刊论文 前10条
1 陈剑;龚发根;;一种优化分布式文件系统的文件合并策略[J];计算机应用;2011年S2期
2 郎为民;杨德鹏;;云计算中的分布式文件系统[J];电信快报;2012年02期
3 陈文捷;蔡立志;楼志斌;王洁萍;李海波;;应用级分布式文件系统接口标准化探索[J];信息技术与标准化;2012年10期
4 应朝晖,高洪奎,黄若衡;分布式文件系统[J];计算机工程与科学;1995年03期
5 卢军;卢显良;韩宏;许腾;;基于移动Agent的新型分布式文件系统研究[J];计算机科学;2002年10期
6 寒江约叟;N个资源一次看——分布式文件系统妙用[J];电脑应用文萃;2004年07期
7 黄华,张建刚,许鲁;蓝鲸分布式文件系统的分布式分层资源管理模型[J];计算机研究与发展;2005年06期
8 黄华;张建刚;许鲁;;蓝鲸分布式文件系统的客户端元数据缓存模型[J];计算机科学;2005年09期
9 黄华;张敬亮;张建刚;许鲁;;蓝鲸分布式文件系统的物理资源管理模型[J];计算机工程;2006年06期
10 阴四海;王文杰;李秀斌;范军涛;;并行分布式文件系统的改进[J];计算机应用;2007年S2期
相关会议论文 前4条
1 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
2 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
3 罗志明;张大华;王电钢;常健;;电力分布式云存储关键技术研究[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
4 徐文斌;;大数据时代的交管综合应用云平台[A];第八届中国智能交通年会论文集[C];2013年
相关重要报纸文章 前10条
1 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统的历史与现状[N];中国计算机报;2005年
2 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年
3 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年
4 ;分布式文件系统一瞥[N];网络世界;2002年
5 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年
6 ;Hadoop:为构建海量数据架构而生[N];人民邮电;2012年
7 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年
8 IBM大数据专家 James Kobielus 范范 编译;YARN动摇了MapReduce对Hadoop的掌控[N];网络世界;2013年
9 张力平;云计算和物联网的美妙融合[N];学习时报;2014年
10 《网络世界》记者 于翔;大数据治理多管齐下[N];网络世界;2012年
相关博士学位论文 前4条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 史小冬;分布式文件系统高可用问题研究[D];中国科学院研究生院(计算技术研究所);2002年
3 黄华;蓝鲸分布式文件系统的资源管理[D];中国科学院研究生院(计算技术研究所);2005年
4 杨德志;分布式文件系统可扩展元数据服务关键问题研究[D];中国科学院研究生院(计算技术研究所);2008年
相关硕士学位论文 前10条
1 冷志强;基于分布式文件系统GlusterFS的横向扩展云存储的研究与实现[D];复旦大学;2014年
2 黎斌;基于HDFS的分布式文件系统存储研究与优化[D];电子科技大学;2015年
3 何雄;大小文件跨网络集群快速迁移协议[D];电子科技大学;2015年
4 焦晨宇;可伸缩分布式文件系统及其应用[D];北京理工大学;2015年
5 谯林飞;云计算环境中分布式文件系统数据一致性问题研究[D];电子科技大学;2014年
6 秦小寒;优化性能的分布式存储子系统的设计与实现[D];电子科技大学;2014年
7 牛升;分布式文件系统的负载均衡策略研究[D];电子科技大学;2014年
8 郭建国;基于分布式文件系统FastDFS的图片服务器件设计与应用[D];中国科学院大学(工程管理与信息技术学院);2015年
9 白铖;一种分布式文件系统的设计与实现[D];电子科技大学;2015年
10 吴霖;分布式微信公众平台爬虫系统的研究与应用[D];南华大学;2015年
,本文编号:1740481
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1740481.html