云环境下图数据存储与并行聚类研究
本文选题:云存储 切入点:NoSQL 出处:《福州大学》2013年硕士论文
【摘要】:如何实现海量空间数据高效地存储管理和在线服务,同时基于这些数据挖掘用户感兴趣、有用的地学知识,成为地学领域日益关注的热点问题。目前空间数据云存储的研究大多集中在栅格数据存储和管理等方面,而针对矢量数据云存储与云服务领域研究较为零散,同时基于云存储的空间挖掘也缺乏系统的研究。本文根据矢量和栅格空间数据的不同特点,提出并实现了矢量栅格数据一体化的海量空间数据分布式云存储管理与访问服务方案,并基于云存储设计与实现了一个高效的并行谱聚类挖掘算法。主要研究内容和成果如下:1.在综述云计算、NoSQL数据库与图计算等相关领域的国内外研究现状的基础上,详细阐述了空间云存储与并行聚类的基础理论。分析了云计算模式的概念和特性以及NoSQL非关系数据库技术的起源、类型,分析了图数据库的数据模型、应用场景和传统空间存储技术的实现与局限,以及不同并行计算模型的原理、适用场合以及优缺点。2.根据矢量和栅格空间数据的不同特点,提出矢量栅格数据一体化的海量空间数据分布式云存储管理与访问服务方案。在三层式空间数据云存储架构基础上,给出基于NoSQL数据库技术的栅格和矢量数据云存储的实现策略与方法,并开展了通用数据访问接口的设计。采用分布式文件系统HDFS存储栅格数据,并使用列族数据库HBase对其建立分布式空间索引,而采用满足ACID约束的分布式图数据库Neo4J来存储矢量数据,并使用R树建立空间索引。3.探讨了基于图论的空间聚类算法——谱聚类算法原理,通过对比分析算法中不同的子图划分方法,采用DiDiC分割算法应用于并行图数据空间聚类中。同时结合并行计算框架MapReduce,提出了空间谱聚类算法流程及其基于MapReduce并行化的实现方法。4.开展了图数据的存储以及并行聚类的两个方面的试验测试。在图数据存储方面,开展了GeoDAC与PostGIS在矢量数据读写访问性能方面的对比测试。结果表明,虽然GeoDAC没有获得写入性能的加速作用,但其具有PostGIS无法比拟的强大读取性能。在图挖掘方面,开展了并行谱聚类算法与单机版谱聚类算法在图数据的挖掘效率对比测试,证明算法并行化具有显著提升图数据挖掘算法的性能。
[Abstract]:How to realize the efficient storage, management and online service of massive spatial data, and how to mine the interesting and useful geoscience knowledge of users based on these data, At present, the research of spatial data cloud storage is mostly focused on raster data storage and management, but the research on vector data cloud storage and cloud service is scattered. At the same time, space mining based on cloud storage is also lack of systematic research. According to the different characteristics of vector and raster spatial data, A distributed cloud storage management and access service scheme for mass spatial data is proposed and implemented, which integrates vector raster data. An efficient parallel spectral clustering algorithm based on cloud storage is designed and implemented. The main research contents and results are as follows: 1. On the basis of summarizing the research status of cloud computing NoSQL database and graph computing at home and abroad. The basic theory of spatial cloud storage and parallel clustering is described in detail, the concept and characteristics of cloud computing mode and the origin and type of NoSQL non-relational database technology are analyzed, and the data model of graph database is analyzed. The realization and limitation of application scene and traditional space storage technology, as well as the principle of different parallel computing models, the applicable situation and the advantages and disadvantages. 2.According to the different characteristics of vector and raster spatial data, This paper proposes a distributed cloud storage management and access service scheme for massive spatial data based on the integration of vector raster data, which is based on the three-layer spatial data cloud storage architecture. The implementation strategy and method of grid and vector data cloud storage based on NoSQL database technology are presented, and the design of general data access interface is carried out. The distributed file system HDFS is used to store grid data. The column family database HBase is used to build the distributed spatial index, and the distributed graph database Neo4J, which meets the ACID constraints, is used to store vector data. Using R-tree to build spatial index. 3. The principle of spectral clustering algorithm based on graph theory is discussed, and the different subgraph partition methods in the algorithm are compared and analyzed. The DiDiC segmentation algorithm is applied to the spatial clustering of parallel graph data. At the same time, combining with the parallel computing framework MapReduce, the flow of spatial spectral clustering algorithm and its realization method based on MapReduce parallelization are proposed. Test tests on two aspects of clustering. In the case of graph data storage, A comparative test between GeoDAC and PostGIS in vector data read and write access performance is carried out. The results show that although GeoDAC does not achieve the acceleration of write performance, it has a powerful read performance that cannot be compared with PostGIS. The parallel spectral clustering algorithm and the single-machine version spectral clustering algorithm are compared in graph data mining efficiency. It is proved that the parallelization of the algorithm can significantly improve the performance of graph data mining algorithm.
【学位授予单位】:福州大学
【学位级别】:硕士
【学位授予年份】:2013
【分类号】:P208
【相似文献】
相关期刊论文 前10条
1 刘瑜,张毅,邬伦;空间数据工程理论框架研究[J];地理与地理信息科学;2003年01期
2 李晓印,张友顺,杨昕,刘爱利;空间数据的“无纸化”管理探讨[J];国土资源科技管理;2004年02期
3 ;《空间数据系统》[J];航天器工程;2005年01期
4 陈俊杰,邹友峰;GIS空间数据质量评价软件设计探讨[J];矿山测量;2005年03期
5 洪志全,叶琳,辛俊,张于峰;GIS空间数据索引技术研究与实现[J];物探化探计算技术;2005年01期
6 胡圣武;张光胜;王宏涛;;空间数据建库研究[J];地球科学与环境学报;2007年02期
7 李伟芬;丁静;苗卿;;空间数据多尺度研究综述[J];电脑知识与技术(学术交流);2007年13期
8 王庆光;;GIS空间数据质量研究[J];水利科技与经济;2007年05期
9 丁滨;夏洪山;;GIS空间数据索引技术研究[J];江苏航空;2007年04期
10 谭红霞;;GIS空间数据的质量探讨[J];山东国土资源;2009年06期
相关会议论文 前10条
1 汪建光;;空间数据自动批处理技术研究[A];2009全国测绘科技信息交流会暨首届测绘博客征文颁奖论文集[C];2009年
2 杨成韫;荣芳;彭子风;;基于客户/服务器结构的空间数据分布式处理研究[A];新世纪 新机遇 新挑战——知识创新和高新技术产业发展(上册)[C];2001年
3 陈良刚;王海兵;王宇君;施伯乐;;基于约束的空间数据查询[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
4 陈荦;刘云翔;唐宇;景宁;;基于优先图的空间数据应用服务链建模方法[A];第二十届全国数据库学术会议论文集(研究报告篇)[C];2003年
5 杜红悦;宫辉力;冯克忠;贾建坤;权忠生;;应急救灾空间数据中心建设技术与策略研究[A];第十七届中国遥感大会摘要集[C];2010年
6 李诺夫;黎雷;;网络环境下空间数据的管理[A];地理空间信息技术与应用——中国科协2002年学术年会测绘论文集[C];2002年
7 刘新贵;黄雅娟;;空间数据网络化获取与管理初探[A];中国地理信息系统协会第三次代表大会暨第七届年会论文集[C];2003年
8 廖佳;;基础空间数据生命周期管理[A];地理空间信息技术及其应用论坛论文集[C];2005年
9 叶荣青;吴晓玲;;福建省基础空间数据管理技术研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
10 方金云;;空间数据虚拟化的实现技术研究[A];中国地理信息系统协会第九届年会论文集[C];2005年
相关重要报纸文章 前10条
1 宁津生 陈军 晁定波;空间数据质量的主要内涵[N];中国测绘报;2002年
2 李丰丹;“国家地质空间数据网格服务系统”获发明专利[N];中国矿业报;2009年
3 记者 胡其峰;多项空间数据成果向社会开放[N];光明日报;2013年
4 孙昭荣;GIS图穷数字见[N];中国计算机报;2002年
5 宁津生 陈军 晁定波;空间数据的质量控制方法[N];中国测绘报;2002年
6 刘荣梅;中国1∶100万地质图空间数据实现国际共享[N];中国国土资源报;2014年
7 陈拂晓;空间数据:“数字城市”建设的基础[N];中国计算机报;2002年
8 王东华邋罗建军;美国空间数据一站式服务系统[N];中国测绘报;2007年
9 深圳商报记者 董超文;一部手机将可“装”下一座城市[N];深圳商报;2006年
10 中国工程院院士 刘先林;航测为智慧城市建设提供空间数据[N];中国信息化周报;2014年
相关博士学位论文 前10条
1 刘义;大规模空间数据的高性能查询处理关键技术研究[D];国防科学技术大学;2013年
2 范建永;基于Hadoop的云GIS若干关键技术研究[D];解放军信息工程大学;2013年
3 刘伟;基于地理本体的空间数据服务发现与集成[D];中国矿业大学;2010年
4 陈晓斌;基于网格中间件的空间数据访问与集成技术[D];解放军信息工程大学;2012年
5 李世明;林业空间数据平台技术的应用示范研究[D];中国林业科学研究院;2008年
6 郭加树;空间数据仓的构建及应用[D];中国石油大学;2007年
7 桑永胜;空间数据分析的神经计算方法[D];电子科技大学;2010年
8 刘丹;对等计算环境中的空间数据查询定位研究[D];武汉大学;2011年
9 胡茂胜;基于数据中心模式的分布式异构空间数据无缝集成技术研究[D];中国地质大学;2009年
10 陈建华;原生模式GML空间数据管理机制研究[D];成都理工大学;2008年
相关硕士学位论文 前10条
1 张明佳;空间数据地图模型的原型设计[D];中国地质大学(北京);2015年
2 于海涛;基于AE的油气田地理信息系统的设计与实现[D];中国地质大学(北京);2015年
3 付悦华;基于概念格的空间数据规则提取[D];江西理工大学;2015年
4 项天宋;非洲综合资源环境信息空间可视化系统设计与应用研究[D];福建师范大学;2015年
5 梁杰超;空间数据的访问控制技术研究[D];浙江大学;2015年
6 崔洪博;重庆配电网基础地理信息系统设计与实现[D];电子科技大学;2015年
7 黄正中;空间环境数据处理及可视化交互技术研究[D];电子科技大学;2014年
8 李青岩;Android下的移动空间数据存取方法研究[D];江西理工大学;2015年
9 何拴;基于ArcGIS的黑河中游水资源信息化平台研究[D];兰州大学;2015年
10 李真;海防雷达实训数据管理系统的设计与实现[D];大连海事大学;2015年
,本文编号:1699705
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/1699705.html