面向海量天文数据的分布式存储引擎的研究
发布时间:2017-10-27 04:06
本文关键词:面向海量天文数据的分布式存储引擎的研究
更多相关文章: 海量天文数据 分布式存储 位图索引 OrangeFS FastBit 数据布局
【摘要】:随着天文观测设备和技术的进步,天文观测数据规模的迅速增长使得如何存储海量观测数据以及如何能够迅速从中获取想要的信息成为难题。传统单节点的文件系统和关系型数据库在处理海量天文数据方面的性能无法让人接受。因此,设计一套针对海量天文数据处理的分布式存储引擎便显得十分的必要和重要。 天文数据可以分为星表数据和星图数据,这两种数据有不同的格式和应用场景。本文针对天文星表和星图的特点,分别设计了两种分布式存储方案,进而加快对这两种数据的存取。星图数据采用分布式文件系统来存取,本文基于星图数据的特点首先提出了混合数据访问模型以减轻分布式文件系统中的网络开销,然后在开源分布式文件系统OrangeFS上实现了该模型。星表数据则采用基于位图索引的列式存储引擎FastBit,本文针对单节点版本的FastBit在处理海量天文数据时会遇到的内存问题,设计并实现了FastBit的分布式数据存储引擎,提出了FastBit的分布式数据划分算法以及基于SQL分析的并行查询算法。 本文主要分为两部分,第一部分首先分析了分布式文件系统中客户端节点在不同文件大小与不同数据规模下的吞吐率瓶颈,并根据天文星图的特征提出了混合数据访问模型。从模型的意义和目的角度,对其进行了分析和介绍。接着描述了模型的原理和流程,以及如何将该模型应用到实际的OrangeFS分布式文件系统中。通过benchmark以及真实天文应用的测试,验证了采用该模型的分布式存储对天文星图读写的加速效果。 第二部分首先分析传统关系型数据库在处理海量天文星表数据时所存在的问题,并介绍了基于位图索引的列式存储引擎FastBit以及它在处理海量天文数据时所存在的内存问题。然后提出了FastBit的分布式数据划分算法以及基于SQL分析的并行查询算法,描述了FastBit分布式存储的整体架构,最后通过天文星表数据进行实验验证,,并对实验结果进行了性能分析。
【关键词】:海量天文数据 分布式存储 位图索引 OrangeFS FastBit 数据布局
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP333
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 绪论9-12
- 1.1 课题背景9-10
- 1.2 研究意义10
- 1.3 研究内容和创新10-11
- 1.4 论文结构11-12
- 第二章 分布式存储和天文数据概述12-19
- 2.1 现代存储系统概述12-15
- 2.1.1 传统文件系统13-14
- 2.1.2 传统关系型数据库14-15
- 2.2 分布式存储系统和 NoSQL 概述15-17
- 2.2.1 分布式文件系统15-16
- 2.2.2 NoSQL 数据库16-17
- 2.3 天文数据概述17-19
- 第三章 分布式文件系统吞吐率的分析19-24
- 3.1 分布式文件系统的整体架构19-20
- 3.2 国内外分布式文件系统的研究现状20-21
- 3.3 分布式文件系统的数据布局策略21
- 3.4 分布式文件系统客户端节点的吞吐率分析21-24
- 第四章 本地数据访问模型的设计与实现24-36
- 4.1 共享内存机制24
- 4.2 混合数据访问模型24-25
- 4.3 混合数据访问模型在 OrangeFS 上的应用25-26
- 4.4 NUDA 架构26-27
- 4.5 基于混合数据访问模型的 OrangeFS 读写数据流程27-28
- 4.6 实验评估28-36
- 4.6.1 实验环境28-29
- 4.6.2 基于 IOzone 的实验分析29-33
- 4.6.3 基于 Montage 工作流的实验分析33-36
- 第五章 基于 FastBit 的海量星表分布式存储系统的设计与实现36-49
- 5.1 数据库索引36-39
- 5.1.1 B 树36-38
- 5.1.2 倒排索引38
- 5.1.3 位图索引38-39
- 5.2 FastBit 介绍39-43
- 5.2.1 位图编码40-41
- 5.2.2 分桶41
- 5.2.3 WAH 位图压缩算法41-43
- 5.3 FastBit 分布式存储方案的设计与实现43-47
- 5.3.1 SQL43-44
- 5.3.2 Shared-Nothing 体系结构44
- 5.3.3 基于 FastBit 的分布式数据存储44-46
- 5.3.4 基于 FastBit 的分布式数据检索46
- 5.3.5 SABPS 算法的理论分析46-47
- 5.4 实验结果与分析47-49
- 第六章 海量天文数据分布式存储系统的总体架构49-55
- 6.1 海量天文数据分布式存储系统的架构设计49-55
- 6.1.1 一致性哈希算法49-51
- 6.1.2 系统架构和数据流向51-53
- 6.1.3 系统可扩展性53-54
- 6.1.4 系统可靠性54-55
- 第七章 总结与展望55-57
- 7.1 全文总结55-56
- 7.2 研究工作展望56-57
- 参考文献57-60
- 发表论文和参加科研情况说明60-61
- 致谢61
【参考文献】
中国期刊全文数据库 前1条
1 康书恒;杨子江;;FastBit在流量测量系统中的应用[J];数字通信;2012年01期
本文编号:1101826
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1101826.html