当前位置:主页 > 科技论文 > 计算机论文 >

结构化存储系统中元数据集群的设计与实现

发布时间:2020-02-22 16:06
【摘要】:随着技术的发展与信息数字化的推进,大量的数据需要被永久存储,而且存储的容量也呈指数上升。在海量数据的时代,如何有效存储大规模数据,并且提供常用接口是一个研究的热点。结构化数据发展多年,形成了大家都易于接受的接口和一系列标准,但是关系型数据其存储容量的限制使得它很难适应海量数据的需求。 本文通过对分布式存储技术的分析研究,结合当前的主流存储相关的产品的设计思路与应用需求,提出了海量结构化数据存储的一套合理的解决方案,并且实现了一个结构化存储系统。系统利用分布式思想,将结构化数据分拆成很多分片,各个分片独立存储在不同的存储节点之上,充分利用各个节点的存储资源。 论文的主要研究工作为以下几点: 1、结构化存储系统的设计,利用分布式思想,将系统分别部署在多个节点之上,然后将对数据的操作分割成多个相互较为独立的子过程,然后由各个独立部署的服务节点完成相应的功能。 2、系统元数据集群的设计实现。使用集群技术来存储海量的元数据信息,以满足整个系统的存储需求,利用Epoll非阻塞的通信技术提高系统的网络吞吐量,,避免由于元数据集群的读写性能成为制约整个系统性能的瓶颈。同时实现集群内部的负载均衡调度,根据集群本身的特点,通过集中式的调度管理策略来实现整个集群内部的访问热点和存储的负载均衡。 3、系统元数据集群的容错设计实现。为元数据集群设计副本冗余和双机热备冗余相结合的容错方案,其中对调度节点实现双机热备冗余的容错系统,对存储节点实现多副本控制的容错方案,提高集群的可靠性和健壮性。 通过功能测试和压力测试的数据表明,整个结构化存储系统的功能完整,在压力情况之下,系统能够正常运行,且能够在较为合理的时延下完成大规模用户对系统的操作请求。
【图文】:

架构图,架构


业务发展的需求,提出了很多设计理念,如在 gfs 中节点的失效不在被认为是异常,节点的失效需要系统自身进行处理和维护;对于海量存储来说,预先了解系统运用环境中的读写比例可以利用优化得到更好的系统性能,而在 GFS 中,文件系统的大部分操作都是大规模的读操作,系统对于大数据量的写操作性能出色。GFS 存储集群由一个单独的元数据主节点(master)和多个负责存储的块服务器(chunkserver)组成,可同时并发的对多个客户端(client)提供服务。在 GFS中,每一个 chunkserver 节点都可以是部署在普通 PC 机上的服务器进程,从而降低系统的硬件要求。在存储集群中,每一个文件都被拆分成固定大小的块(chunk),而且没有chunk都有全局唯一标示,chunkserver在本地存储这些chunk时利用linux文件系统自身读写保存这些块,和保存普通文件一样,为了应对系统的异常情况,对每一个 chunk 都会有副本存在,而根据系统对健壮性的要求不同,其副本数是可以配置的,一般情况下保存 3 个 chunk 副本。其架构如图 2-1 所示[5]:

数据分布,网页,关键字


图 2-2 BigTable 网页存储示意BigTable 中的行关键字可以是 64KB 以内的任意字符,而且对于相同行关键字的读写操作都是原子性的,这样可以使系统在对同一个行进行并发操作时的性能更好,操作和维护更加容易。BigTable 的行关键字是采用字典顺序来组织的,每一个独立的分区被称为一个Tablet,它是数据分布和负载均衡的最小单元。这样组织之后,读取行中某几列数据的操作效率很高,而且用户通过对行关键字进行优化存储,可以使得数据的位置具有很好的逻辑相关性。BigTable 的列关键字的集合被称为“列族”,是访问控制的基本单元,相同列族下存储的数据具有相同的数据类型。在使用过程中,列族必须先创建,之后才可以在列族下存储数据。BigTable 使用时间戳来标记不同的数据版本,同时不同数据版本之间也使用时间戳来作为索引,它是一个 64 位的整形,每一个版本都有一个唯一的时间戳,同时都按照时间戳排列,最新最近的放在最前面。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP333;TP311.52

【相似文献】

相关期刊论文 前10条

1 邓华梅;李肖锋;袁海平;;关于XML数据的存储研究[J];科技情报开发与经济;2008年24期

2 ;OCLC开始新的元数据试验计划[J];现代图书情报技术;2008年06期

3 杨磊;;基于NoSQL数据库的结构化存储设计与应用[J];科技风;2011年18期

4 杨占东;;应用XML DB的空间元数据存储技术[J];地理空间信息;2010年03期

5 刘炜;;“元数据与语义技术和社会性应用”专辑:都柏林核心元数据2008年会论文选译[J];现代图书情报技术;2009年03期

6 王旭初,张根保;基于COM原理的可重构CAPP工艺文件的结构化存储[J];组合机床与自动化加工技术;2004年05期

7 廖邦富;胡安邦;;电子病历的结构化组织和自由化输入的方法[J];中国数字医学;2008年03期

8 傅西平;简论OCLC元数据服务的动态与启示[J];江西图书馆学刊;2002年04期

9 ;OCLC为出版商启动元数据服务[J];现代图书情报技术;2009年11期

10 张红跃,王汉林,吕良君;COM技术在保护调试软件中的应用[J];继电器;2005年06期

相关会议论文 前10条

1 刘群;冯丹;;基于层次结构的元数据动态管理方法的研究[A];第15届全国信息存储技术学术会议论文集[C];2008年

2 王蜀安;张铭;王爱华;杨冬青;;构建基于OAI协议的可互操作数字图书馆元数据服务[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年

3 翟曙光;;一种实用的组件式GIS的设计方法[A];'2005数字江苏论坛——电子政务与地理信息技术论文专辑[C];2005年

4 翟曙光;;一种实用的组件式GIS的设计方法[A];'2005数字江苏论坛电子政务与地理信息技术论文专辑[C];2005年

5 张铭;杨冬青;王蜀安;邓志鸿;唐世渭;;支持元数据和服务的可互操作数字图书馆框架[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年

6 单广荣;于洪志;戴玉刚;曹晖;;藏文古籍保护技术的体系结构与元数据方案建设[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

7 万甜甜;刘强;董海良;;西南资源环境信息元数据研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年

8 王汉林;徐卓;史伟;;COM技术在电能质量在线监测软件中的应用[A];2006中国电力系统保护与控制学术研讨会论文集[C];2006年

9 袁博;李明峰;;GIgateway地理数据服务模式初探[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年

10 赵庆龄;沈伦;;数据库服务器虚——实双机热备在图书馆建设中的应用[A];华北地区高校图协第二十四届学术年会论文(文章)汇编[C];2010年

相关重要报纸文章 前10条

1 徐枫邋宦茂盛;元数据检索按图索骥[N];计算机世界;2007年

2 易水;计算机选读(959)[N];计算机世界;2005年

3 ;认识双机热备[N];电脑报;2007年

4 程妙玉;双机热备知多少[N];金融时报;2005年

5 ;IBM双机热备高可用性方案[N];中国计算机报;2002年

6 尚星;“风云”背后的双机热备[N];计算机世界;2002年

7 李明凯;PC SERVER双机热备[N];中国计算机报;2002年

8 ;双机热备 可靠安全[N];中国计算机报;2002年

9 刘毅;24小时安全在线从双机热备开始[N];中国计算机报;2008年

10 ;双机热备 不间断运作[N];计算机世界;2003年

相关博士学位论文 前10条

1 王娟;对象存储系统中元数据管理研究[D];华中科技大学;2010年

2 陈平;数据挖掘网格若干关键技术研究[D];北京邮电大学;2007年

3 苏勇;iSCSI OSD存储系统端到端服务质量支持策略研究[D];华中科技大学;2008年

4 熊慕舟;基于网格计算的分布式数据管理关键技术研究[D];华中科技大学;2010年

5 刘炜;基于本体的数字图书馆语义互操作[D];复旦大学;2006年

6 彭春华;网格移动定位服务及关键技术研究[D];南京航空航天大学;2007年

7 李冰;云计算环境下动态资源管理关键技术研究[D];北京邮电大学;2012年

8 袁燕妮;基于本体的电信产品信息融合服务框架研究与实践[D];北京邮电大学;2008年

9 钱迎进;大规模Lustre集群文件系统关键技术的研究[D];国防科学技术大学;2011年

10 刘瑰;面向海量信息处理领域的数据网格及其关键技术研究[D];解放军信息工程大学;2009年

相关硕士学位论文 前10条

1 胡品芳;结构化存储系统中元数据集群的设计与实现[D];电子科技大学;2012年

2 姚小乐;新加坡框架下的元数据服务研究[D];华东师范大学;2010年

3 杨金莹;科技资源数据库元数据注册与使用[D];石家庄铁道学院;2009年

4 许鑫;基于元数据的农田信息存储、管理和共享研究[D];河南农业大学;2011年

5 刘文博;水土保持元数据及关键技术研究[D];北京林业大学;2012年

6 吴彬;基于元数据的生态数据管理和信息共享[D];中南林业科技大学;2008年

7 李志国;基于J2EE的元数据注册管理系统的设计与实现[D];北京交通大学;2011年

8 黎臻;分布式结构化存储系统设计与实现[D];电子科技大学;2011年

9 袁俊超;G/S模式下分布式空间数据服务器群中的元数据组织与管理[D];成都理工大学;2010年

10 詹利群;基于元数据的气象科学数据共享平台的设计与实现[D];电子科技大学;2010年



本文编号:2581938

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2581938.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6c83f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com