大数据环境下数据存储与查询的研究
发布时间:2017-06-12 22:01
本文关键词:大数据环境下数据存储与查询的研究,由笔耕文化传播整理发布。
【摘要】:在这个大数据时代,由于数据量的增大使许多原本很简单的数据操作都变得很难。如何去分析处理海量的数据成为了一个很有挑战性的难题。为了解决这个难题,人们从数据存储、数据传输、数据分析上提出了很多新的方法和模型。当下最热门的大数据存储与处理模型是Hadoop和MapReduce,他们被很多产业界的公司和学术界的学者所研究和认同。作为大数据处理的一种解决方案,MapReduce确实能够解决一些问题,但在很多情况下它依旧是不适用的,所以新的解决方案的研究还需要继续。 我们主要是基于CMD存储模型来做大数据存储与查询的探索。传统CMD存储模型是基于单机多磁盘的,它已无法适应当前数据库领域所面临的挑战。我们第一次将CMD扩展到了分布式环境下,在集群上建立CMD存储方案,并通过它解决了大数据量的多路不等值连接操作问题,设计了全新的图数据存储模型,并对CMD在高维数据与大规模分布式集群上遇到的难题做了一定的优化。 对于普通的关系数据,我们并设计了基于CMD的多路不等值连接操作这一新的分布式连接操作算法,并与传统关系型数据库和Hadoop分布式并行计算环境进行了效率对比。因为该算法充分利用了CMD存储方法对各属性的索引,所以在效率上要比关系型数据库和Hadoop分布式环境高很多,是解决大数据量的多路不等值连接操作的有效方案。 对于图数据,我们也将其转化成CMD能够存储的数据格式,并对其可行性与效率做了一定探索,给出了基于CMD存储方案的图数据存储方法与基本操作。这是一个全新的图数据存储模型,,相比于之前的图数据存储模型,它减弱了点的重要性而更关注于边的属性,使基于边的查询的速度得以大大提升。 对于CMD存储方法在高维数据与大规模集群上会遇到的一些难题,我们给出了一些改进方案。我们提出的属性分组方案,使属性有层次的进行划分,解决了原始CMD在面对高维数据会产生大量碎片的问题。我们提出的节点分组方案,也解决了当CMD部署在大规模集群上会使数据划分过于零散而网络通讯代价激增的问题。
【关键词】:CMD 多路不等值连接操作 图数据模型 分布式
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP311.13;TP333
【目录】:
- 摘要4-5
- Abstract5-7
- 目录7-9
- 第1章 绪论9-16
- 1.1 课题背景及研究的目的和意义9-10
- 1.2 大数据存储与分析现状研究10-14
- 1.2.1 传统关系型数据库11
- 1.2.2 NoSQL 数据库11-13
- 1.2.3 MapReduce 编程模型13-14
- 1.3 本文的主要研究内容14-15
- 1.4 本文的组织结构15-16
- 第2章 基于 CMD 的多路不等值连接操作16-38
- 2.1 多路不等值连接操作16-18
- 2.2 CMD 存储方法18-22
- 2.2.1 分布式 CMD 存储方法18-20
- 2.2.2 连接操作相关概念20-22
- 2.3 基于 CMD 存储方法的多路不等值连接操作算法22-32
- 2.3.1 代价模型23-26
- 2.3.2 连接操作指导向量26-27
- 2.3.3 分布式连接操作算法27-29
- 2.3.4 正确性证明29-31
- 2.3.5 时间复杂度分析31-32
- 2.4 实验结果及分析32-36
- 2.4.1 实验环境32-34
- 2.4.2 实验结果34-36
- 2.5 本章小结36-38
- 第3章 基于 CMD 的图数据存储与查询38-51
- 3.1 图数据存储计算模型38-41
- 3.1.1 Pregel39-40
- 3.1.2 GraphLab40-41
- 3.1.3 GBase41
- 3.2 基于 CMD 的图数据存储41-44
- 3.2.1 以边为中心42
- 3.2.2 存储模型42-44
- 3.3 基于 CMD 的图数据查询44-47
- 3.3.1 K 近邻查询44-46
- 3.3.2 用户指定的导出子图查询46-47
- 3.3.3 用户指定的 K 核查询47
- 3.4 实验结果及分析47-50
- 3.4.1 实验环境48
- 3.4.2 实验数据48
- 3.4.3 实验结果及分析48-50
- 3.5 本章小结50-51
- 第4章 CMD 在高维数据和大规模集群的扩展51-57
- 4.1 CMD 存储方法的一些不足51-52
- 4.1.1 高维数据51-52
- 4.1.2 大规模集群52
- 4.2 高维数据的解决方案52-53
- 4.3 大规模集群的解决方案53-54
- 4.4 实验结果及分析54-56
- 4.4.1 实验环境54
- 4.4.2 实验结果54-56
- 4.5 本章小结56-57
- 结论57-58
- 参考文献58-62
- 攻读硕士学位期间发表的论文62-64
- 致谢64
【参考文献】
中国期刊全文数据库 前2条
1 李建中;一种并行数据库的动态多维数据分布方法[J];软件学报;1999年09期
2 李建中,都薇;并行数据库上的并行CMD-Join算法[J];软件学报;1998年04期
本文关键词:大数据环境下数据存储与查询的研究,由笔耕文化传播整理发布。
本文编号:444987
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/444987.html