基于HDFS的结构化数据存储和查询方法研究
发布时间:2017-05-02 02:07
本文关键词:基于HDFS的结构化数据存储和查询方法研究,,由笔耕文化传播整理发布。
【摘要】:大数据的“4V”特点:体量大、种类多、价值大以及处理速度快,使得原有的关系型数据库集群已难以容纳海量的结构化数据。因此,基于分布式文件系统的关系型数据库成为研究热点。基于分布式文件系统的数据库是指底层存储采用Hadoop分布式文件系统HDFS,上层采用以大规模并行处理MPP架构作为调度引擎的数据库。HDFS分布式文件系统部署于由多个独立基础设施并通过网络连接的节点组成的集群上,其中一个节点用于存储文件系统的元数据信息,其他节点用来存储文件数据,文件系统中所有的数据通过网络进行传输。目前,基于HDFS的关系型数据库在应用中还存在以下不足:1.未实现跨数据中心的功能,因而难以满足跨数据中心查询的应用需求;2.基于HDFS的数据库存储数据所采用的存储策略,使得属于同一表的数据集中存储于负载较小的节点,这种存取策略将降低遍历数据的并行效率;3.当部署HDFS的集群中存储节点发生变化时,为保证各个节点存储负载的均衡性,需进行节点间的数据迁移,且该过程涉及所有节点,迁移时间过长,因而对数据库的实时查询效率影响较大。 针对上述问题,本文基于清华大学信息科学技术国家实验室搭建的Impala集群框架,结合242课题“面向关系型数据的云存储关键技术研究及验证”,从底层分布式文件系统HDFS数据存储角度,对结构化数据库的数据存储、查询以及迁移方法进行了探索性研究,并对基于HDFS的关系型数据库跨数据中心部署方法进行了实际应用测试。 本文的主要工作包括:1.跨数据中心的分布式数据库Impala系统部署。将Impala系统进行跨广域网、跨地域的多个数据中心的部署。2.基于环形分布式哈希的数据存储和查询方法研究。将分布式哈希表和CHORD环结构应用于分布式文件系统数据的存储和查询中,将存储节点与数据都进行散列,并根据哈希值进行映射存储,通过对保存的元数据信息进行二分查找来定位所需数据的存储位置。3.基于环形分布式散列的数据迁移方法研究,当部署HDFS文件系统的集群新增存储节点时,其“邻居”节点的部分数据将迁移至新节点;当有存储节点失效时,该节点上存储的数据依据备份恢复到“邻居”节点进行存储。 本文的创新点为:1.实现Impala系统的跨数据中心部署,提高了Impala系统的应用范围和对跨域大数据应用的支持;2.提出基于环形分布式哈希的数据存储和查询方法,利用基于分布式哈希以及CHORD环方法进行数据存储和查询,使数据均匀的散列在各个节点上,提高了数据查询的并行性,降低了查询时延;3.提出基于环形分布式散列的数据迁移方法,利用该方法进行数据迁移,减少了数据移动所的涉及节点,节省了迁移的时间,保证了数据库查询的一致性和有效性。 本文将所提出的数据存储、查找以及数据迁移的方法进行仿真实验,通过与HDFS分布式文件系统原有的策略进行对比,验证了所提出方法的有效性。
【关键词】:分布式文件系统 分布式哈希 数据存储 数据迁移 跨数据中心
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP333
【目录】:
- 摘要8-10
- Abstract10-12
- 第1章 结构化数据存放策略综述12-21
- 1.1 研究背景及意义12-14
- 1.2 国内外研究现状14-18
- 1.3 本文工作与创新18-20
- 1.3.1 本文的主要工作18-19
- 1.3.2 本文的创新点19-20
- 1.4 本文的组织20-21
- 第2章 基于HDFS的分布式数据库系统部署21-31
- 2.1 Impala系统的本地数据中心部署21-26
- 2.1.1 本地数据中心部署结构21-22
- 2.1.2 本地数据中心数据导入与查询22-25
- 2.1.3 负载均衡操作25-26
- 2.2 Impala系统的跨数据中心部署26-30
- 2.2.1 跨数据中心部署结构27-28
- 2.2.2 跨数据中心数据导入28-29
- 2.2.3 跨数据中心数据查询29-30
- 2.3 本章小结30-31
- 第3章 基于环形分布式哈希的数据存储与查询方法31-41
- 3.1 基于HDFS的数据库数据存放31-33
- 3.2 分布式哈希表(DHT)与CHORD环33-34
- 3.3 基于环形分布式哈希的数据存储与查询方法34-39
- 3.3.1 主要思想34-35
- 3.3.2 数据存放方法35-38
- 3.3.3 数据查找方法38-39
- 3.4 实验及数据分析39-40
- 3.5 本章小结40-41
- 第4章 基于环形分布式散列的数据迁移方法41-48
- 4.1 CHORD数据迁移41-43
- 4.2 基于环形分布式散列的数据迁移方法43-45
- 4.2.1 主要思想43
- 4.2.2 节点加入数据移动方法43-45
- 4.2.3 节点失效数据移动方法45
- 4.3 实验及数据分析45-47
- 4.4 本章小结47-48
- 第5章 总结48-51
- 5.1 本文总结48-49
- 5.2 进一步的工作49-51
- 参考文献51-55
- 致谢55-56
- 攻读学位期间发表的学术论文目录56-57
- 学位论文评阅及答辩情况表57
【参考文献】
中国期刊全文数据库 前4条
1 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期
2 林伟伟;刘波;;基于动态带宽分配的Hadoop数据负载均衡方法[J];华南理工大学学报(自然科学版);2012年09期
3 孟小峰;慈祥;;大数据管理:概念、技术与挑战[J];计算机研究与发展;2013年01期
4 刘琨;肖琳;赵海燕;;Hadoop中云数据负载均衡算法的研究及优化[J];微电子学与计算机;2012年09期
本文关键词:基于HDFS的结构化数据存储和查询方法研究,由笔耕文化传播整理发布。
本文编号:340073
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/340073.html