HDFS的副本管理策略研究
本文关键词:HDFS的副本管理策略研究
更多相关文章: 云存储 副本策略 分布式文件系统 负载均衡 支持向量机
【摘要】:云存储作为云计算的存储基础正随着大数据时代的到来发挥着越来越重要的作用。云存储采用分布式架构来应对海量数据的存储。如何在可靠性、高性能等方面提高云存储的服务能力一直都是研究关注的热点。云存储中数据的安全依赖于它的副本技术。副本技术是一种数据管理机制,它将存储的数据复制多份并分布在多个节点上,以此来提高云存储系统的可靠性、负载均衡性、数据访问效率。本文以提高云存储的服务能力为目标,主要围绕分布式文件系统HDFS(Hadoop Distributed File System)的副本创建和放置策略进行研究。本文根据存储系统中文件访问的特点提出并设计了一种依据热度动态创建副本的算法。针对HDFS原有副本创建方式的不足,基于文件访问热度的副本创建算法通过综合考虑每个文件的访问频率以及访问时间的差异,使整个HDFS集群能够动态的调整每个文件的副本数。对于访问频率高的文件可以依据其特点为其增加副本的个数。增加的多个副本能够更好地分散访问请求,使整个系统不会出现热点故障,从而有效降低了系统出现单点故障的概率。另外由于有多个副本,可以使来自用户的访问请求就近选择副本数据,从而有效降低网络延迟。而对于访问频率低的数据,该算法可以在不影响其可用性的情况下为其分配更少的副本,这样就能有效的降低集群的负载。本文提出一种基于SVM(Support Vector Machine)的副本放置策略模型SRPM(SVM Replica Placement Model)。为了能够应对超大规模数据的存储以及提高容错性,Hadoop分布式文件系统HDFS采用一种机架感知的多副本放置策略。但HDFS在副本放置过程中没有综合考虑各节点服务器的差异性,这会导致集群出现负载失衡。并且HDFS在选择远程机架节点放置副本时采用随机方式,而这有可能导致节点之间的网络距离过长,使得在节点之间传输数据会消耗大量时间。针对以上问题,副本放置策略模型(SRPM)基于SVM通过综合考虑节点负载情况,节点硬件性能,节点网络距离来为副本找到一个最佳的放置节点。实验结果表明与HDFS原有的副本放置策略相比SRPM能更有效的实现负载均衡。
【关键词】:云存储 副本策略 分布式文件系统 负载均衡 支持向量机
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP333;TP18
【目录】:
- 中文摘要3-4
- 英文摘要4-8
- 1 绪论8-13
- 1.1 课题研究的背景和意义8-9
- 1.2 国内外研究现状9-11
- 1.3 本文的研究目的和研究内容11-12
- 1.3.1 研究目的11
- 1.3.2 研究内容11-12
- 1.4 论文的结构安排12-13
- 2 云存储基本知识13-28
- 2.1 云存储技术13-18
- 2.1.1 云存储概念13
- 2.1.2 云存储架构模型13-14
- 2.1.3 云存储分类14-15
- 2.1.4 云存储关键技术15-16
- 2.1.5 云存储优势16-17
- 2.1.6 云存储发展趋势17-18
- 2.2 副本技术18-21
- 2.2.1 副本技术概述18-19
- 2.2.2 副本管理策略分类19-20
- 2.2.3 副本技术研究方向20-21
- 2.3 分布式文件系统HDFS21-27
- 2.3.1 HDFS概述21-22
- 2.3.2 HDFS架构22-23
- 2.3.3 HDFS工作流程23-25
- 2.3.4 HDFS异常处理25-26
- 2.3.5 HDFS副本机制26-27
- 2.4 本章小结27-28
- 3 基于文件热度的动态副本创建策略28-40
- 3.1 副本创建研究现状28
- 3.2 HDFS原有副本创建策略28-29
- 3.3 HDFS原有副本创建策略存在的问题29
- 3.4 基于文件热度的动态副本创建策略29-35
- 3.4.1 基本思想29
- 3.4.2 文件访问热度计算方法29-32
- 3.4.3 副本创建时机32-33
- 3.4.5 动态副本创建算法33-35
- 3.5 实验分析及总结35-39
- 3.5.1 实验环境35-38
- 3.5.2 性能分析及对比38-39
- 3.6 本章小结39-40
- 4 基于SVM的副本放置策略模型40-50
- 4.1 副本放置研究现状40
- 4.2 HDFS原有副本放置策略的不足40-41
- 4.3 改进的副本放置策略模型41-43
- 4.3.1 基本思想41
- 4.3.2 问题描述41-42
- 4.3.3 节点特征选取42-43
- 4.4 算法描述43-44
- 4.5 实验与结果分析44-49
- 4.5.1 实验环境44-45
- 4.5.2 改进策略模型的具体实现45
- 4.5.3 性能分析及对比45-49
- 4.6 本章总结49-50
- 5 总结及展望50-52
- 5.1 本文总结50-51
- 5.2 本文展望51-52
- 致谢52-53
- 参考文献53-56
- 附录56
- A. 作者在硕士学位期间发表的学术论文56
- B. 作者在攻读学位期间参加的科研项目56
【相似文献】
中国期刊全文数据库 前10条
1 陈剑;龚发根;;一种优化分布式文件系统的文件合并策略[J];计算机应用;2011年S2期
2 郎为民;杨德鹏;;云计算中的分布式文件系统[J];电信快报;2012年02期
3 陈文捷;蔡立志;楼志斌;王洁萍;李海波;;应用级分布式文件系统接口标准化探索[J];信息技术与标准化;2012年10期
4 应朝晖,高洪奎,,黄若衡;分布式文件系统[J];计算机工程与科学;1995年03期
5 卢军;卢显良;韩宏;许腾;;基于移动Agent的新型分布式文件系统研究[J];计算机科学;2002年10期
6 寒江约叟;N个资源一次看——分布式文件系统妙用[J];电脑应用文萃;2004年07期
7 黄华,张建刚,许鲁;蓝鲸分布式文件系统的分布式分层资源管理模型[J];计算机研究与发展;2005年06期
8 黄华;张建刚;许鲁;;蓝鲸分布式文件系统的客户端元数据缓存模型[J];计算机科学;2005年09期
9 黄华;张敬亮;张建刚;许鲁;;蓝鲸分布式文件系统的物理资源管理模型[J];计算机工程;2006年06期
10 阴四海;王文杰;李秀斌;范军涛;;并行分布式文件系统的改进[J];计算机应用;2007年S2期
中国重要会议论文全文数据库 前4条
1 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
2 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
3 罗志明;张大华;王电钢;常健;;电力分布式云存储关键技术研究[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
4 徐文斌;;大数据时代的交管综合应用云平台[A];第八届中国智能交通年会论文集[C];2013年
中国重要报纸全文数据库 前10条
1 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统的历史与现状[N];中国计算机报;2005年
2 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年
3 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年
4 ;分布式文件系统一瞥[N];网络世界;2002年
5 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年
6 ;Hadoop:为构建海量数据架构而生[N];人民邮电;2012年
7 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年
8 IBM大数据专家 James Kobielus 范范 编译;YARN动摇了MapReduce对Hadoop的掌控[N];网络世界;2013年
9 张力平;云计算和物联网的美妙融合[N];学习时报;2014年
10 《网络世界》记者 于翔;大数据治理多管齐下[N];网络世界;2012年
中国博士学位论文全文数据库 前4条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 史小冬;分布式文件系统高可用问题研究[D];中国科学院研究生院(计算技术研究所);2002年
3 黄华;蓝鲸分布式文件系统的资源管理[D];中国科学院研究生院(计算技术研究所);2005年
4 杨德志;分布式文件系统可扩展元数据服务关键问题研究[D];中国科学院研究生院(计算技术研究所);2008年
中国硕士学位论文全文数据库 前10条
1 冷志强;基于分布式文件系统GlusterFS的横向扩展云存储的研究与实现[D];复旦大学;2014年
2 黎斌;基于HDFS的分布式文件系统存储研究与优化[D];电子科技大学;2015年
3 何雄;大小文件跨网络集群快速迁移协议[D];电子科技大学;2015年
4 焦晨宇;可伸缩分布式文件系统及其应用[D];北京理工大学;2015年
5 谯林飞;云计算环境中分布式文件系统数据一致性问题研究[D];电子科技大学;2014年
6 秦小寒;优化性能的分布式存储子系统的设计与实现[D];电子科技大学;2014年
7 牛升;分布式文件系统的负载均衡策略研究[D];电子科技大学;2014年
8 郭建国;基于分布式文件系统FastDFS的图片服务器件设计与应用[D];中国科学院大学(工程管理与信息技术学院);2015年
9 白铖;一种分布式文件系统的设计与实现[D];电子科技大学;2015年
10 吴霖;分布式微信公众平台爬虫系统的研究与应用[D];南华大学;2015年
本文编号:639165
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/639165.html