基于Spark的空间数据平台系统的设计与实现
本文关键词:基于Spark的空间数据平台系统的设计与实现 出处:《山东大学》2017年硕士论文 论文类型:学位论文
【摘要】:空间数据,也被称为地理数据。空间数据是可以由地理坐标系位置表示的感卫星监测产生的地理信息,如河流,湖泊,城镇。移动通信网络中的手机通话信息,城交通网络中的安装有GPS的车辆位置信息,社交网络中产生的带有位置的信息。充分分析和利用这些空间数据将会在环境处理,通信安全和交通规划等领域具有重要作用。物理对象的信息。当前,众多行业持续不断地产生了大量的空间数据。随着大量有价值的空间数据的产生,使用适应于大规模空间数据处理的工具对空间数据进行分析与处理的需求越来越迫切。但是,当前的关系型数据库技术和分布式计算系统却并不适合于处理空间数据。空间数据索引结构不适合用关系数据库表达,从而导致关系型数据库处理空间数据查询操作效率低下。由于MapReduce编程模型的缺点,现有的基于HDFS和MapReduce的分布式数据分析框架处理交互式查询和迭代操作时速度较慢。MapReduce模型使用如下方式对数据进行处理:首先从集群磁盘中读取数据到内存,对执行计算,然后将结果从内存写到集群磁盘,作为下次计算的输入。每次计算过程产生的冗余磁盘读写开销使得基于MapReduce的算法实现存在严重的性能问题,无法满足用户对大规模空间数据实时分析的要求。Apache Spark是一个新兴的集群计算框架,与MapReduce框架相比,Spark提供内存迭代计算功能。计算数据可以常驻内存而省去磁盘I/O时间。在交互式查询环境中,比目前最流行的并行计算工具Hadoop快100多倍。随着Spark框架不断的更新与发展,研究人员开始通过扩展Spark实现对空间数据的分布式查询处理。GeoSpark和SpatialSpark是目前为止最先进的系统。他们通过扩展Spark实现了空间数据的分布式存储的查询操作。这两个系统的系统框架类似,都主要由三层组成:空间数据存储层,数据索引层和查询处理层,空间数据存储层实现对大规模空间数据的分布式存储。数据索引层将传统的空间索引技术应用于分布式存储的空间数据集群。查询处理层对用户提供空间查询操作接口,通过索引层和存储层,实现空间数据分析。提供的查询操作包含区域查询,空间关联查询和空间k最近邻查询。但是GeoSpark和SpatialSpark在设计上仍然存在一系列缺点,导致最终的查询性能不高。本文,我们通过全面改进上述系统架构,分别使用了新的空间数据分区策略,索引结构和查询处理技术,设计并实现了一个新的基于Spark的空间数据计算系统Spark-GIS,全面的实验表明,Spark-GIS比上述系统具有更高的查询性能。Spark-GIS的主要创新包括以下三个方面:1.在空间数据存储层,设计并实现了一个新的空间数据分区策略,使用新的分区策略实现的空间数据分布式存储为上层的空间数据查询提供了更好的支持,确保空间数据查询时避免工作负载均衡问题。2.在空间数据索引层,设计并实现了一种基于Voronoi图的R树空间索引结构,与R树相比,在未降低系统空间查询性能同时,大大减少生成空间索引结构的时间和空间索引结构的大小。3.在空间数据分析层,通过结合改进的空间数据分布式存储策略,空间索引技术,实现了基于Spark的并行空间数据查询算法,能够为用户提供海量高并发的空间数据交互式查询。包括空间区域查询,空间联接查询和空间k最近邻询。最后,我们对Spark-GIS,Spark和GeoSpark进行了全面的对比测试。测试数据是数量为亿级别的移动电话通话记录数据。实验结果显示Spark-GIS空间查询操作性能全面优于目前为止最先进的系统——GeoSpark,尤其在空间区域查询和空间联接查询方面,性能比GeoSpark改善了多个数量级。
[Abstract]:Spatial data, also known as geographic data. Spatial data is from the geographical coordinates of the position of said sense satellite monitoring produces geographic information, such as rivers, lakes, cities and towns. In the mobile communication network of mobile phone call information, city traffic network is installed on the vehicle position information of GPS, produced with location information in a social network. The full analysis and use of the spatial data in the environment will play an important role in the field of communication, security and traffic planning. The physical object information. At present, many industries continue to produce a large number of spatial data. Spatial data with a large number of valuable production needs, suitable for use in large scale spatial data tools the processing of spatial data analysis and processing become more and more urgent. However, relational database technology and distributed computing system currently is not suitable for the treatment of air Among the data. Spatial data index structure is not suitable for expression in relational database, resulting in relational database processing spatial data query efficiency. The MapReduce programming model, the existing HDFS and MapReduce distributed data analysis framework based on the interactive processing model of.MapReduce slow speed of query and iterative operation when using the following method for data processing: first to read data into memory from the cluster disk, to perform a calculation, then the results from the cluster disk memory writes, as the next calculation input. Each calculation process produces redundant disk read and write overhead that implements MapReduce algorithm based on serious performance problems, unable to meet user requirements for real-time analysis of large scale spatial data.Apache Spark is an emerging cluster computing framework, compared with the MapReduce framework, Spark provides internal storage The iterative calculation function. The calculation data can be saved to disk I/O memory resident time. In the interactive query environment, calculation tool Hadoop 100 times faster than the parallel current most popular Spark framework. With the constantly updated and development, researchers began by extending Spark to realize distributed spatial data query processing on.GeoSpark and SpatialSpark is the current system so far the most advanced. They through extending Spark to realize distributed data storage query system framework of these two systems are similar, mainly consists of three layers: the spatial data storage layer, data layer index and query processing layer, realize the distributed storage of large scale spatial data spatial data index data storage layer. The layer will be traditional spatial indexing technology used in distributed storage of spatial data. Cluster processing layer provides the user with the query spatial query operation In the index layer and storage layer, realize spatial data analysis. The query contains range queries, nearest neighbor queries of spatial query and spatial correlation of K. But GeoSpark and SpatialSpark still has a series of shortcomings in design, leading to final query performance is not high. In this paper, we improved the system through a comprehensive architecture. Using spatial data partition strategy, index structure and query processing technology, the design and implementation of a new computing system Spark-GIS based on Spark spatial data, comprehensive experiments to show the main innovation of Spark-GIS has a better performance than the.Spark-GIS query of the system includes the following three aspects: 1. in spatial data the storage layer, the design and implementation of a new spatial data partitioning strategy, spatial data distributed storage using the partition strategy of new implementation for the upper spatial data query To provide better support, to avoid the problem of work load balance in.2. spatial data index that spatial data query, the design and implementation of a R tree spatial index structure based on Voronoi, compared with the R tree, the query performance and reduce system in space, greatly reduce the generation time and the spatial index structure of spatial index the size of the structure of.3. in spatial data analysis layer, by combining spatial data distributed storage strategy improved, spatial indexing technology, realize the parallel query algorithm based on Spark spatial data, high concurrency can provide massive spatial data interactive query for users. Including spatial query, spatial join query and nearest neighbor query. Finally K space we, on Spark-GIS, Spark and GeoSpark are tested comprehensively. The test data is the mobile phone number to billion level call records data. The experimental results It shows that the performance of Spark-GIS spatial query operation is much better than the most advanced system so far -- GeoSpark, especially in spatial area query and spatial join query, its performance is improved by more than GeoSpark.
【学位授予单位】:山东大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:P208;TP311.52
【相似文献】
相关期刊论文 前10条
1 刘瑜,张毅,邬伦;空间数据工程理论框架研究[J];地理与地理信息科学;2003年01期
2 陈俊杰,邹友峰;GIS空间数据质量评价软件设计探讨[J];矿山测量;2005年03期
3 洪志全,叶琳,辛俊,张于峰;GIS空间数据索引技术研究与实现[J];物探化探计算技术;2005年01期
4 胡圣武;张光胜;王宏涛;;空间数据建库研究[J];地球科学与环境学报;2007年02期
5 李伟芬;丁静;苗卿;;空间数据多尺度研究综述[J];电脑知识与技术(学术交流);2007年13期
6 王庆光;;GIS空间数据质量研究[J];水利科技与经济;2007年05期
7 丁滨;夏洪山;;GIS空间数据索引技术研究[J];江苏航空;2007年04期
8 谭红霞;;GIS空间数据的质量探讨[J];山东国土资源;2009年06期
9 廖俊国,刘兴权;浅析GIS空间数据的误差来源及处理方法[J];江苏测绘;1998年03期
10 廖俊国,刘兴权;浅析GIS空间数据的误差来源及处理方法[J];四川测绘;1998年03期
相关会议论文 前10条
1 汪建光;;空间数据自动批处理技术研究[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
2 杨成韫;荣芳;彭子风;;基于客户/服务器结构的空间数据分布式处理研究[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
3 陈良刚;王海兵;王宇君;施伯乐;;基于约束的空间数据查询[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 陈荦;刘云翔;唐宇;景宁;;基于优先图的空间数据应用服务链建模方法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 杜红悦;宫辉力;冯克忠;贾建坤;权忠生;;应急救灾空间数据中心建设技术与策略研究[A];第十七届中国遥感大会摘要集[C];2010年
6 李诺夫;黎雷;;网络环境下空间数据的管理[A];地理空间信息技术与应用——中国科协2002年学术年会测绘论文集[C];2002年
7 刘新贵;黄雅娟;;空间数据网络化获取与管理初探[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年
8 廖佳;;基础空间数据生命周期管理[A];地理空间信息技术及其应用论坛论文集[C];2005年
9 叶荣青;吴晓玲;;福建省基础空间数据管理技术研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
10 方金云;;空间数据虚拟化的实现技术研究[A];中国地理信息系统协会第九届年会论文集[C];2005年
相关重要报纸文章 前10条
1 宁津生 陈军 晁定波;空间数据质量的主要内涵[N];中国测绘报;2002年
2 李丰丹;“国家地质空间数据网格服务系统”获发明专利[N];中国矿业报;2009年
3 记者 胡其峰;多项空间数据成果向社会开放[N];光明日报;2013年
4 孙昭荣;GIS图穷数字见[N];中国计算机报;2002年
5 宁津生 陈军 晁定波;空间数据的质量控制方法[N];中国测绘报;2002年
6 刘荣梅;中国1∶100万地质图空间数据实现国际共享[N];中国国土资源报;2014年
7 陈拂晓;空间数据:“数字城市”建设的基础[N];中国计算机报;2002年
8 王东华邋罗建军;美国空间数据一站式服务系统[N];中国测绘报;2007年
9 深圳商报记者 董超文;一部手机将可“装”下一座城市[N];深圳商报;2006年
10 中国工程院院士 刘先林;航测为智慧城市建设提供空间数据[N];中国信息化周报;2014年
相关博士学位论文 前10条
1 刘义;大规模空间数据的高性能查询处理关键技术研究[D];国防科学技术大学;2013年
2 范建永;基于Hadoop的云GIS若干关键技术研究[D];解放军信息工程大学;2013年
3 马伯宁;空间数据多尺度建模关键技术研究[D];国防科学技术大学;2014年
4 刘伟;基于地理本体的空间数据服务发现与集成[D];中国矿业大学;2010年
5 陈晓斌;基于网格中间件的空间数据访问与集成技术[D];解放军信息工程大学;2012年
6 李世明;林业空间数据平台技术的应用示范研究[D];中国林业科学研究院;2008年
7 郭加树;空间数据仓的构建及应用[D];中国石油大学;2007年
8 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
9 刘丹;对等计算环境中的空间数据查询定位研究[D];武汉大学;2011年
10 胡茂胜;基于数据中心模式的分布式异构空间数据无缝集成技术研究[D];中国地质大学;2009年
相关硕士学位论文 前10条
1 张明佳;空间数据地图模型的原型设计[D];中国地质大学(北京);2015年
2 于海涛;基于AE的油气田地理信息系统的设计与实现[D];中国地质大学(北京);2015年
3 付悦华;基于概念格的空间数据规则提取[D];江西理工大学;2015年
4 项天宋;非洲综合资源环境信息空间可视化系统设计与应用研究[D];福建师范大学;2015年
5 梁杰超;空间数据的访问控制技术研究[D];浙江大学;2015年
6 崔洪博;重庆配电网基础地理信息系统设计与实现[D];电子科技大学;2015年
7 黄正中;空间环境数据处理及可视化交互技术研究[D];电子科技大学;2014年
8 李青岩;Android下的移动空间数据存取方法研究[D];江西理工大学;2015年
9 何拴;基于ArcGIS的黑河中游水资源信息化平台研究[D];兰州大学;2015年
10 李真;海防雷达实训数据管理系统的设计与实现[D];大连海事大学;2015年
,本文编号:1404873
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1404873.html