Hadoop架构下海量空间数据存储与管理
本文关键词:Hadoop架构下海量空间数据存储与管理 出处:《武汉大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 海量空间数据 分布式索引 云计算 R-树索引
【摘要】:随着地理信息产业的飞速发展,作为GIS血液的地理空间数据正在随着指数级的速率增长,使得空间数据的检索、计算及分析等操作的难度不断加大,并且其应用到GIS的工作领域范围也在不断扩张,空间数据精度需求不断增大,导致海量空间数据的存储管理难度一再提升,迫切需要新的方法和技术来解决该问题。2005年开始Hadoop分布式系统开源技术迅速发展,其主要的两项技术HDFS和MapReduce可以为地理空间数据的分布式存储及并行计算处理提供技术支撑,为解决上述问题提供了一条新的思路。本文深入研究了地理空间数据的常见数据存储模式和数据存储结构,针对Hadoop分布式开源平台中的分布式文件系统HDFS存储需求设计了非结构化空间数据存储模式,以便海量空间数据进行分布式存储,分散计算机硬盘及处理器的压力。同时为将不同来源、不同格式、不同数据结构的地理空间数据统一存储在HDFS中,设计了统一化的数据转换接口。当前,空间数据索引的研究大都是针对单机建立的索引,很少有分布式存储空间索引研究。存储在HDFS中的空间数据完全无序,并且分布散乱,对空间数据的检索需要在集群中的每一个节点进行遍历,才能检索到用户所需要的空间数据。因此本文针对几种不同的数据划分算法深入研究,找出了适合海量空间数据索引管理的STR树索引,建立了数据划分—局部索引—全局索引的STR树空间索引机制。通过MapReduce并行处理框架对索引进行分布式计算,并在最后Reduce阶段将结果进行归并以返回给用户,优化了数据检索技术,大大提高了数据检索的效率。
[Abstract]:With the rapid development of geographic information industry, the geospatial data as GIS blood is increasing with the exponential rate, which makes the retrieval, calculation and analysis of spatial data increasingly difficult. And its application to the scope of GIS work is also expanding, spatial data accuracy requirements continue to increase, resulting in massive spatial data storage and management difficulties. New methods and technologies are urgently needed to solve this problem. In 2005, Hadoop distributed system open source technology developed rapidly. The two main technologies, HDFS and MapReduce, can provide technical support for distributed storage and parallel computing of geospatial data. It provides a new way to solve the above problems. This paper deeply studies the common data storage mode and data storage structure of geospatial data. An unstructured spatial data storage model is designed to meet the storage requirements of distributed file system (HDFS) in the Hadoop distributed open source platform in order to store large amounts of spatial data in distributed storage. Distributed computer hard disk and processor pressure. At the same time for different sources, different formats, different data structure of geospatial data stored in HDFS, designed a unified data conversion interface. Most of the research on spatial data index is based on single machine. There are few distributed storage spatial indexes. The spatial data stored in HDFS is completely disordered and scattered. Spatial data retrieval needs to traverse every node in the cluster in order to retrieve the spatial data required by users. Find out the STR tree index which is suitable for the massive spatial data index management. The STR tree spatial index mechanism of data partitioning, local index and global index is established, and the distributed computation of the index is carried out through the MapReduce parallel processing framework. In the final stage of Reduce, the result is merged to return to the user, the data retrieval technology is optimized, and the efficiency of data retrieval is greatly improved.
【学位授予单位】:武汉大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:P208
【参考文献】
相关期刊论文 前10条
1 王凯;曹建成;王乃生;郭朝阳;张哲;;Hadoop支持下的地理信息大数据处理技术初探[J];测绘通报;2015年10期
2 朱文德;王文靖;黄志英;李景文;;基于Hadoop的地理实体对象化存储方法[J];测绘与空间地理信息;2015年05期
3 鲍宗豪;宋贵伦;;大数据对社会治理带来的冲击与变革[J];决策探索(下半月);2014年06期
4 冯钧;任锋;唐志贤;;基于Hadoop的QR树索引方法[J];计算机工程与设计;2013年12期
5 刘义;陈荦;景宁;熊伟;;基于R-树索引的Map-Reduce空间连接聚集操作[J];国防科技大学学报;2013年01期
6 余冬梅;;空间数据索引与查询的研究[J];计算机与数字工程;2011年11期
7 李静;王冬利;;浅析空间数据库[J];科技信息;2010年28期
8 陈珍珍;;云计算及安全性分析[J];电脑知识与技术;2010年22期
9 陈占龙;吴信才;谢忠;马丽娜;;GSHR-Tree:一种基于动态空间槽和哈希表的网格环境下的空间索引树[J];地球科学(中国地质大学学报);2010年03期
10 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
相关博士学位论文 前7条
1 章瑞;云计算服务的定价策略研究[D];东华大学;2014年
2 范建永;基于Hadoop的云GIS若干关键技术研究[D];解放军信息工程大学;2013年
3 刘晓茜;云计算数据中心结构及其调度机制研究[D];中国科学技术大学;2011年
4 张泽宝;空间数据库的索引技术研究[D];哈尔滨工程大学;2009年
5 韦亚星;基于数据网格的地理空间信息协作共享系统研究[D];中国科学技术大学;2007年
6 陈飞翔;移动空间信息服务关键技术研究[D];中国科学院研究生院(遥感应用研究所);2006年
7 景东升;基于本体的地理空间信息语义表达和服务研究[D];中国科学院研究生院(遥感应用研究所);2005年
相关硕士学位论文 前10条
1 李雷;海量复杂结构数据计算方法的应用研究[D];南京邮电大学;2016年
2 刘松;基于分布式的海量图片数据存储系统的研究与设计[D];深圳大学;2016年
3 马磊;一种基于HDFS的分布式多级R树空间索引研究[D];中国测绘科学研究院;2016年
4 宋建林;K-means聚类算法的改进研究[D];安徽大学;2016年
5 王瑞松;大数据环境下时空多维数据可视化研究[D];浙江大学;2016年
6 李运兴;基于R*的分布式空间索引算法研究[D];河南大学;2015年
7 崔峰峰;基于Hadoop的数字博物馆构建研究[D];西北师范大学;2015年
8 吴学饶;云计算环境下大GML空间数据并行存取关键技术研究[D];江西理工大学;2015年
9 吴宾;地理空间数据集的多级格网索引研究与应用[D];电子科技大学;2014年
10 夏锐;基于Hadoop的VGI矢量空间数据管理方法研究[D];南京师范大学;2014年
,本文编号:1356077
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1356077.html