矢量空间数据云存储与马尔可夫并行聚类算法研究
本文关键词:矢量空间数据云存储与马尔可夫并行聚类算法研究
更多相关文章: 云存储 MongoDB 矢量空间数据 MapReduce 马尔可夫聚类
【摘要】:近年来随着地理空间数据的爆炸型增长,矢量空间数据存储与挖掘日益成为空间信息科学领域的研究热点。如何高效地存储和管理海量矢量空间数据,并从中挖掘有用的地学知识,成为地学领域亟待解决的问题。本文在非关系数据库和MapReduce模型等理论的基础上,以矢量空间数据为研究对象,提出了在云环境下多用户存储、多类型数据转换和海量矢量空间数据处理等三种矢量空间数据存储与处理机制,基于文档型数据库MongoDB和并行计算框架Hadoop实现了矢量空间数据云存储系统,并最终实现与自主研发的地理知识云服务平台GeoKSCloud的紧密集成;总结了MapReduce模型下对图算法进行整体优化设计的三种途径及其具体解决方法,据此设计并实现了马尔可夫并行聚类算法。主要研究内容和成果如下:1.综述了矢量空间数据存储理论与技术的研究现状,探讨了NoSQL数据库的特点,阐述了MongoDB数据数据库的特点及应用场景;从并行聚类和数据挖掘平台两个方面总结了云环境下的并行聚类研究现状,并详细介绍了MapReduce模型、聚类概念与流程、经典聚类算法、图聚类算法等相关理论与技术。2.开展了矢量空间数据存储机制以及云存储系统设计与实现方面的研究。提出了多用户存储、多类型数据转换和海量矢量空间数据处理等三种存储与处理机制:即利用MongoDB存储矢量空间数据及其元数据,利用开源简单要素库OGR实现异构矢量空间数据的转换与读写,借助Hadoop完成海量矢量空间数据的处理与挖掘任务。之后,依托于地理知识云平台GeoKSClou d的基本框架,提出了由数据层、业务层和表现层三部分组成的系统架构,通过集群搭建、数据存储、导入导出、数据库访问、数据处理等方面对系统进行了详细设计,最终实现了矢量空间数据云存储系统。3.开展了在MapReduce模型下图算法的优化设计方法,以及马尔可夫聚类算法并行化方面的研究。根据图结构拓扑关系的复杂性,探讨了MapReduce模型下图算法的优化设计方法,主要对消息传递机制、基于本地聚合的数据约简、基于Mapper内部聚合的数据约简等三个途径进行了优化,并提出了相应的具体解决方法。之后,将MCL算法分解为矩阵表示、扩张操作、膨胀操作和算法整合等部分。采用子矩阵方式表达矩阵,在扩张操作和膨胀操作中提出了并行化方案,并进行了并行策略的多次优化。最终,通过整合各操作实现了并行化算法MR-MCL。4.开展了VectorDB云存储系统、MR-MC L算法的性能测试与评价工作。结果显示,VectorDB比PostGIS具有更加强大的读取性能,VectorDB在并行处理方面比MongoDB更有优势,MR-MCL算法具有良好的扩展性与高效性。
【关键词】:云存储 MongoDB 矢量空间数据 MapReduce 马尔可夫聚类
【学位授予单位】:福州大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:P208
【目录】:
- 中文摘要3-4
- Abstract4-9
- 第一章 绪论9-19
- 1.1 研究背景9-10
- 1.2 研究目标与内容10
- 1.3 研究技术路线10-11
- 1.4 文章章节安排11-13
- 1.5 国内外研究现状13-19
- 1.5.1 矢量空间数据存储13-15
- 1.5.2 云环境下并行聚类15-19
- 第二章 相关理论基础19-29
- 2.1 空间数据云存储概述19-22
- 2.1.1 NoSQL数据库19-21
- 2.1.2 MongoDB21-22
- 2.2 并行聚类概述22-27
- 2.2.1 MapReduce模型概述22-24
- 2.2.2 聚类挖掘概述24-27
- 2.3 本章小结27-29
- 第三章 基于MongoDB的矢量空间数据存储与处理29-56
- 3.1 地理知识云服务平台GeoKSCloud29-32
- 3.1.1 体系结构29-31
- 3.1.2 平台主要功能31-32
- 3.2 需求分析32-34
- 3.2.1 功能要求32-33
- 3.2.2 性能要求33-34
- 3.3 存储与处理机制34-37
- 3.3.1 多用户存储机制34-35
- 3.3.2 矢量空间数据存储35-36
- 3.3.3 海量数据处理机制36-37
- 3.4 系统架构37-42
- 3.4.1 数据层38-39
- 3.4.2 业务层39-41
- 3.4.3 表现层41-42
- 3.5 系统设计与实现42-54
- 3.5.1 MongoDB集群搭建42-44
- 3.5.2 数据存储44-46
- 3.5.3 导入导出模块46-48
- 3.5.4 数据库访问模块48-50
- 3.5.5 数据处理模块50-52
- 3.5.6 系统主要界面52-54
- 3.6 本章小结54-56
- 第四章 基于MapReduce的MCL并行算法56-73
- 4.1 马尔可夫聚类算法56-59
- 4.1.1 基本概念56-57
- 4.1.2 算法过程57-58
- 4.1.3 特点58-59
- 4.2 图算法的优化设计方法59-61
- 4.2.1 分布式消息传递机制59-60
- 4.2.2 基于本地聚合的数据约简60
- 4.2.3 基于Mapper内部聚合的数据约简60-61
- 4.3 MR-MCL设计与实现61-71
- 4.3.1 矩阵表示62-64
- 4.3.2 扩张操作64-70
- 4.3.3 膨胀操作70-71
- 4.3.4 整合71
- 4.4 本章小结71-73
- 第五章 性能测试与评价73-80
- 5.1 试验环境的软硬件配置73-74
- 5.2 实验数据准备74-75
- 5.3 VectorDB读写性能分析75-76
- 5.4 VectorDB并行计算性能分析76-77
- 5.5 MCL算法性能分析77-79
- 5.6 小结79-80
- 第六章 总结与展望80-83
- 6.1 工作总结80-81
- 6.2 创新与特色81
- 6.3 展望81-83
- 参考文献83-88
- 致谢88-89
- 个人简历89
【相似文献】
中国期刊全文数据库 前10条
1 李军;地球科学数据研究的初步探讨[J];地理学报;1996年S1期
2 狄明远;周铁城;;云计算浅析[J];科技风;2009年13期
3 张珊珊;;基于Oracle的海量DEM数据建库研究[J];地理空间信息;2007年03期
4 陈少雄;卢尚龙;丁建勋;;数据监理在基础信息系统数据入库中的应用[J];地理空间信息;2008年04期
5 何非;何克清;;大数据及其科学问题与方法的探讨[J];武汉大学学报(理学版);2014年01期
6 韩雪培;涂琼;;CAD数据空间参考的判断与参数获取[J];地理与地理信息科学;2010年02期
7 金君,李成名,印洁,林宗坚;人口数据空间分布化模型研究[J];测绘学报;2003年03期
8 王星捷;;MapGIS点文件数据分析与读取实验[J];测绘科学;2013年01期
9 李景叶;张连群;陈小宏;;时移地震数据空间偏差校正方法[J];物探与化探;2012年04期
10 徐寿成,高文;GIS支持的城市土地定级方法的研究——离散型数据空间相关分析法[J];自然资源;1993年01期
中国重要会议论文全文数据库 前5条
1 李鸿奎;陈洪艳;;大连市房地产基础地理信息系统的设计和建设[A];中国地理信息系统协会第九届年会论文集[C];2005年
2 董彦磊;申德荣;寇月;聂铁铮;;数据空间中数据组织模型以及关联关系发现模型的研究[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 庞怡;许洪光;张志敏;;针对海量科技信息的存储研究[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
4 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年
5 季承;;Oracle利用HWM高水标记收缩数据空间方案[A];2013电力行业信息化年会论文集[C];2013年
中国重要报纸全文数据库 前6条
1 牛泽亚;用户如何在数据空间里“被遗忘”?[N];人民邮电;2014年
2 风格;指引大数据未来发展方向的九大真理[N];中华读书报;2013年
3 录音整理 本报记者 刘文强 杨丰源;创新驱动,,奋力奔向大数据时代[N];贵阳日报;2014年
4 中国人民大学信息学院 李玉坤;云计算与数据空间[N];中国计算机报;2008年
5 整理 本报记者 苏丹丹;把握大数据机遇 推动文化产业跨越发展[N];中国文化报;2013年
6 安徽国税局 赵为民;税务综合数据平台的设想[N];计算机世界;2007年
中国博士学位论文全文数据库 前10条
1 李晓娜;面向SaaS应用的多租户数据放置机制研究[D];山东大学;2015年
2 张德兵;基于机器学习的数据补全、标注和检索若干问题研究[D];浙江大学;2015年
3 刘思彤;空间文本数据的查询处理技术研究[D];清华大学;2015年
4 侯振隆;重力全张量梯度数据的并行反演算法研究及应用[D];吉林大学;2016年
5 姜朔;数据空间中数据集成若干关键问题研究[D];东华大学;2014年
6 陈鹏;面向情景感知计算的时空数据管理、查询、分析与相关算法研究[D];华东师范大学;2013年
7 杨丹;数据空间中基于语义的实体搜索关键技术研究[D];东北大学;2012年
8 王晓蕊;华北克拉通地球化学科学数据的管理及应用研究[D];中国地质大学;2008年
9 张晓东;数字河口平台建设关键技术研究[D];中国海洋大学;2009年
10 汪陈应;XML数据编码与存储管理关键技术研究[D];南开大学;2010年
中国硕士学位论文全文数据库 前10条
1 权西瑞;云环境下数据版权保护方法的研究[D];西安建筑科技大学;2015年
2 向兵;中药颗粒调剂设备中辅助硬件及自动封口机的设计[D];东北师范大学;2015年
3 朱跃龙;公安情报自动分类系统的设计与实现[D];电子科技大学;2015年
4 张鹏远;大数据分类存储及检索方法研究[D];西安电子科技大学;2014年
5 王梦佳;DOA下数据注册方法的初步研究与实现[D];成都理工大学;2015年
6 陈启伟;电机状态云监测系统研究与实现[D];浙江大学;2016年
7 王照清;大数据环境下数据查询优化技术应用研究[D];北方工业大学;2016年
8 贾振美;面向稀疏轨迹数据的位置预测方法研究[D];东北大学;2014年
9 雷德龙;矢量空间数据云存储与马尔可夫并行聚类算法研究[D];福州大学;2014年
10 崔晨;基于活动的数据空间的数据关系发现和数据重要性评价[D];华侨大学;2011年
本文编号:939893
本文链接:https://www.wllwen.com/kejilunwen/dizhicehuilunwen/939893.html