优化性能的分布式存储子系统的设计与实现
本文关键词:优化性能的分布式存储子系统的设计与实现
更多相关文章: 分布式理论 云端数据 性能瓶颈 负载均衡 一致性
【摘要】:现今,人们赶上了互联网的大潮,进入了互联网爆炸的时代。数据以超乎过去几十甚至几百倍的速度在不断增长,这导致了人们处理的信息量较之过去呈现指数级上升。当面临问题时,已经不再是几台个人计算机能够搞定的范畴。互联网将全世界人类的大脑集中在一起的同时,也抛出了一个难题:如何处理海量爆炸式增长的数据。为了解决这一难题,人们提出了云的概念,由此衍生出了分布式理论的雏形。另外,各大公司的不同应用对云端数据存储的要求越来越高,尤其是针对不同场景提出了不同的要求,都使得传统的分布式框架在处理问题的时候有气无力。为了丰富用户不断增加的需求的变化以及为了提高更好的用户体验,现有的分布式文件系统做了其相应的改变。实验室也本着科研的目的,借鉴国内外经典的分布式系统框架,设计了我们自己的分布式文件系统C_STORE。本文首先介绍了国内外集中主流的分布式文件系统,并对它们进行了研究,继而给出本系统数据管理模块的设计方案,之后提出性能瓶颈,并进行了改进。C_STORE采用了负载均衡和恢复策略,具有良好的可扩展性和可靠性。它将数据与元数据分离管理,这使客户端对服务器的访问高效化,同时也使资源的管理方便化,既充分利用了资源,又减轻了服务端的压力。在客户端方面,我们分别实现了基于不同平台的客户端软件,如UNIX、ANDROID以及WIN平台下都有其可用的客户端。同时实现了用户认证模块,方便了用户登录以及用户存储配额的分配,保证了用户账户的安全。数据存储模块主要为用户提供良好的数据存储功能,为了保证用户数据的可用性,它采取了冗余策略,将每份数据进行备份;恢复机制保证了数据的可靠性;采用逻辑时钟来保证数据的一致性。模块在副本之间采用了心跳连接推送分片数据的备份副本,一旦出现热点机器,迁移机制和扩容机制保证了模块间数据的负载均衡。本文最后将给出模块基本功能测试与针对大小文件的基本性能测试,并给出性能优化之后的机器各项硬件参数消耗指标,证明系统真实可用。
【关键词】:分布式理论 云端数据 性能瓶颈 负载均衡 一致性
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要5-6
- ABSTRACT6-12
- 第一章 绪论12-20
- 1.1 背景介绍12-13
- 1.2 国内外研究现状13-17
- 1.2.1 GFS13-15
- 1.2.2 HDFS15-16
- 1.2.3 TFS16-17
- 1.3 主要研究内容17-18
- 1.4 论文组织18-20
- 第二章 系统相关理论与技术支持20-29
- 2.1 分布式文件系统20-25
- 2.1.1 名字空间概述20-22
- 2.1.1.1 基于文件系统的设计20-21
- 2.1.1.2 基于全内存的分层设计21
- 2.1.1.3 基于全内存的Hash设计21-22
- 2.1.1.4 基于全内存的双重Hash设计22
- 2.1.2 可用性22-23
- 2.1.3 可扩展性23-24
- 2.1.4 负载均衡24-25
- 2.2 数据查找和定位的相关技术25-27
- 2.2.1 分布式哈希表(Distributed Hash Table,,DHT)25-26
- 2.2.1.1 一致性哈希25
- 2.2.1.2 Chord25-26
- 2.2.2 CRUSH技术26-27
- 2.3 其他理论技术简介27-28
- 2.3.1 复制27
- 2.3.2 重复数据删除(De-duplication)27-28
- 2.4 本章小结28-29
- 第三章 分布式系统存储子模块总体设计29-44
- 3.1 系统需求分析29-30
- 3.2 设计方案30-34
- 3.2.1 可扩展性30-31
- 3.2.2 可靠性31
- 3.2.3 重复数据删除31-33
- 3.2.4 高性能33-34
- 3.3 系统框架及各模块简介34-38
- 3.3.1 客户端模块36
- 3.3.2 元数据单元模块36-37
- 3.3.3 配置和规则服务器模块37-38
- 3.4 典型的系统初始化流程38-39
- 3.5 规则的设计详解39-43
- 3.5.1 规则的设计原理39-40
- 3.5.2 资源查询与位置更新40
- 3.5.3 规则的实现40-43
- 3.5.3.1 重要数据结构41-42
- 3.5.3.2 业务流程简介42-43
- 3.6 本章小结43-44
- 第四章 数据存储模块的设计44-54
- 4.1 总体概要设计44-49
- 4.1.1 序列号的设计46-47
- 4.1.2 数据单元物理存储模型47-48
- 4.1.3 负载均衡策略48-49
- 4.2 桶的状态机设计49
- 4.3 副本一致性维护策略49-50
- 4.4 宕机恢复流程的设计50-51
- 4.5 通信协议设计概要51-53
- 4.6 本章小结53-54
- 第五章 数据存储单元的实现54-65
- 5.1 数据存储模块的实现框架图54-55
- 5.2 网络通信模块的设计实现55-56
- 5.3 定时器管理模块的设计实现56
- 5.4 线程池模块的设计实现56-57
- 5.5 客户端业务处理模块设计实现57-59
- 5.6 CS业务模块设计实现59
- 5.7 桶业务处理模块设计实现59-61
- 5.8 典型业务流程举例61-64
- 5.8.1 上传流程61-62
- 5.8.2 恢复流程62-63
- 5.8.3 桶迁移流程63-64
- 5.9 本章小结64-65
- 第六章 数据存储模块性能瓶颈分析与优化改进65-74
- 6.1 原有程序框架以及流程65-66
- 6.1.1 程序的总体框架65-66
- 6.1.2 现有客户端业务处理流程66
- 6.2 现有客户端与SU交互时存在的问题66-69
- 6.2.1 在现有框架的基础上SU出现的问题66-67
- 6.2.2 测试中客户端与SU交互问题的分析67-69
- 6.3 修改方案69-73
- 6.3.1 短连接到长连接的修改69-72
- 6.3.2 修改为长连接之后的流控处理问题72-73
- 6.4 本章小结73-74
- 第七章 数据分析以及测试结果74-86
- 7.1 测试前的相关环境准备74-75
- 7.2 测试内容75
- 7.3 测试结果75-85
- 7.3.1 基本功能测试结果75-77
- 7.3.1.1 上传75-76
- 7.3.1.2 下载76
- 7.3.1.3 查询76-77
- 7.3.2 负载均衡流程测试77-80
- 7.3.2.1 桶迁移流程测试77-78
- 7.3.2.2 桶分裂流程测试78-80
- 7.3.3 宕机恢复流程测试80-82
- 7.3.4 性能测试82-85
- 7.3.4.1 文件读写硬件性能测试82-83
- 7.3.4.2 大文件读写测试83-84
- 7.3.4.3 小文件读写测试84-85
- 7.4 本章小结85-86
- 第八章 结论与展望86-88
- 致谢88-89
- 参考文献89-91
- 攻研期间的研究成果91-92
【相似文献】
中国期刊全文数据库 前10条
1 寒江约叟;N个资源一次看——分布式文件系统妙用[J];电脑应用文萃;2004年07期
2 黄华;张建刚;许鲁;;蓝鲸分布式文件系统的客户端元数据缓存模型[J];计算机科学;2005年09期
3 黄华;张敬亮;张建刚;许鲁;;蓝鲸分布式文件系统的物理资源管理模型[J];计算机工程;2006年06期
4 姚毓才;张琳娜;;浅析分布式文件系统原理及改进[J];铜陵学院学报;2008年06期
5 刘光博;;分布式文件系统在气象业务中的应用初探[J];气象研究与应用;2009年01期
6 岳卫荣;;浅谈分布式文件系统的使用[J];河南农业;2009年14期
7 何公明;许严;;高性能分布式文件系统相关技术研究[J];有线电视技术;2009年12期
8 薛志强;刘鹏;文艾;周游;许闯;;分布式文件系统管理策略研究[J];电脑知识与技术;2011年01期
9 田怡萌;李小勇;刘海涛;;分布式文件系统副本一致性检测研究[J];计算机研究与发展;2012年S1期
10 熊文;喻之斌;须成忠;;几个常见分布式文件系统特征分析和性能对比(英文)[J];集成技术;2012年04期
中国重要会议论文全文数据库 前4条
1 华清;黄林鹏;;基于分片、松耦合的分布式文件系统的设计与实现[A];2006年全国开放式分布与并行计算学术会议论文集(二)[C];2006年
2 洪穗;;微软WINDOWS Server 2003 R2分布式文件系统解决方案分析[A];中国新闻技术工作者联合会2008年学术年会论文集(上)[C];2008年
3 罗志明;张大华;王电钢;常健;;电力分布式云存储关键技术研究[A];2012年电力通信管理暨智能电网通信技术论坛论文集[C];2013年
4 徐文斌;;大数据时代的交管综合应用云平台[A];第八届中国智能交通年会论文集[C];2013年
中国重要报纸全文数据库 前10条
1 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统的历史与现状[N];中国计算机报;2005年
2 国家高性能计算机工程技术研究中心 黄华 杨德志 张建刚;分布式文件系统趋向成熟[N];中国计算机报;2005年
3 国防科学技术大学计算机学院软件所 董勇 周恩强;构建分布式文件系统[N];中国计算机报;2005年
4 ;分布式文件系统一瞥[N];网络世界;2002年
5 王春海 刘立;分布式文件系统在网络中的应用[N];电脑报;2004年
6 ;Hadoop:为构建海量数据架构而生[N];人民邮电;2012年
7 本报记者 于翔;“大数据”的大承诺[N];网络世界;2010年
8 IBM大数据专家 James Kobielus 范范 编译;YARN动摇了MapReduce对Hadoop的掌控[N];网络世界;2013年
9 张力平;云计算和物联网的美妙融合[N];学习时报;2014年
10 《网络世界》记者 于翔;大数据治理多管齐下[N];网络世界;2012年
中国博士学位论文全文数据库 前4条
1 赵铁柱;分布式文件系统性能建模及应用研究[D];华南理工大学;2011年
2 史小冬;分布式文件系统高可用问题研究[D];中国科学院研究生院(计算技术研究所);2002年
3 黄华;蓝鲸分布式文件系统的资源管理[D];中国科学院研究生院(计算技术研究所);2005年
4 杨德志;分布式文件系统可扩展元数据服务关键问题研究[D];中国科学院研究生院(计算技术研究所);2008年
本文编号:945079
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/945079.html