基于Hadoop的时空大数据的分布式检索方法
发布时间:2018-02-03 04:14
本文关键词: 时空大数据 Hadoop 分布式检索方法 出处:《中国科学院大学(中国科学院国家空间科学中心)》2017年硕士论文 论文类型:学位论文
【摘要】:随着空间任务变得越来越复杂和频繁,科学卫星产生的数据量级也呈现指数式增长的趋势,并且一颗科学卫星在轨运行阶段会产生数量庞大的数据,这些海量数据具有种类繁多、异构、实时、规模庞大和存储分散、时间周期长等大数据的特点,遭遇到计算能力、存储系统和通信速度三方面的挑战,基于关系型数据库管理系统和文件系统开发的传统的数据管理系统对于存储海量结构化数据的能力支持不够,无法应对高并发访问与高扩展性的挑战,所以需要采用新方法对其进行有效地管理。传统上对空间数据的组织通常采用球体剖分的方式,它是基于传统的关系型数据库系统或者文件系统,以空间剖分网格为基础,将空间数据按照空间区域位置进行编码,通过对编码的检索从而完成对数据的查询过程。但是由于这种数据组织方式是基于传统的关系型数据库,因而对存储海量结构化数据的支持能力不足。Hadoop是当前处理海量数据的分布式系统框架,在支持大规模数据方面表现出了巨大的优势。但是,由于Hadoop最初是基于处理一维非结构化或者半结构化数据开发的存储和处理大数据的框架,因而无法直接用于组织和处理结构化的空间科学大数据。本文针对传统的数据管理无法支持海量数据,并且分布式系统框架Hadoop无法直接用于组织和处理结构化的空间科学大数据的问题,提出了基于Hadoop的空间科学大数据的分布式区域检索算法,以支持数据的快速检索,并用多组数据进行了试验和分析。论文的主要研究内容如下:首先,系统阐述了当前国内外在时空数据的索引方法、二维空间科学大数据的组织方法这两方面的国内外的研究成果,以及对Hadoop相关组件,包括HDFS、MapReduce和Hive的工作机制做了详细的阐述,为之后的研究提供了理论依据。其次,基于Hadoop基础架构设计了时空数据的索引方法,包括数据源索引、时间索引和两级空间索引。其中,两级空间索引包括用于分布式从节点间的数据块Block查询的空间全局索引和用于分布式从节点内对数据块Block进行查询的空间局部索引。提出了利用Hive组件建立数据源索引和时间索引的方法,以及提出了基于立方体的Block Grid三维网格剖分方法,设计了分布式环境下的数据查询算法。第三,设计了数据源索引信息、时间索引信息、空间索引信息在分布式系统架构Hadoop,即分布式主从节点中的分布策略,以及在进行数据查询操作时对数据进行检索的执行流程。提出了目标查询区域覆盖空间网格序列的计算方法,该方法能够有效地提高数据的检索效率。第四,基于Hadoop基础架构,设计了能够处理结构化的空间科学数据的NSSC Hadoop分布式系统架构,详细介绍了系统的整体结构,搭建分布式集群过程,集群配置过程,并进行了多组试验,对算法进行验证并对试验结果进行了分析。最后,对本文的研究工作进行了总结和进一步展望。
[Abstract]:闅忕潃绌洪棿浠诲姟鍙樺緱瓒婃潵瓒婂鏉傚拰棰戠箒,绉戝鍗槦浜х敓鐨勬暟鎹噺绾т篃鍛堢幇鎸囨暟寮忓闀跨殑瓒嬪娍,骞朵笖涓,
本文编号:1486385
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1486385.html