当前位置:主页 > 科技论文 > 矿业工程论文 >

基于Hadoop的地质云计算平台搭建与应用

发布时间:2018-08-24 19:36
【摘要】:地质数据采集方式的多样性导致了数据规模的不断增长,已经达到了“地质大数据”的5“V”特点,数据管理和分析处理的复杂程度不断增加,使得对海量地质数据进行高效运维和数据挖掘的难度不断增大,迫切需要新的技术手段来实现地质数据的智能化服务和挖掘地质数据的潜在价值。分布式存储和云计算提供了一种解决上述问题的新思路。Hadoop大数据处理技术得到了国内外研究者们越多越多的关注,成为海量数据存储、计算、挖掘技术的研究热点。本文旨在基于搭建虚拟化地质云平台,实现积累的地质数据能够共享和互操作。深入研究和探索Hadoop集群中的HDFS分布式文件系统、Map Reduce并行编程框架、Hbase列式存储数据库等组件,结合全国地质矿产潜力评价数据,将Hadoop技术应用于地质大数据分析研究中。本文的主要工作如下:(1)通过对云计算和大数据的研究,阐述了其概念、关键技术等内容并提出了地质云平台的体系结构,重点阐述了开源云计算和存储框架Hadoop,尤其是分布式文件系统HDFS、并行计算框架Map Reduce和列式存储Hbase。(2)通过对海量地质数据整合、共享和查询检索的需求分析,利用分布式存储技术和虚拟化技术设计、搭建了Master/Slave架构的云数据计算与存储集群平台。利用Hadoop系统中的HDFS和Map Reduce,为我们设计海量地质数据存储架构提供了有力的技术支撑,最终实现在高并发、高负载的集群环境中对地质数据进行高效访问。(3)从Hadoop集群的云存储出发,解决了小文件在HDFS里合并存储的优化,使用Map Reduce算法使合并过程效率更高。同时通过整体考虑各个负载因素,采用信息熵算法确定权重值,经过多轮负载均衡,提高系统应对高并发情况,优化文件读写,系统效率有了极大提高。(4)研究了架构在虚拟云平台上的HBase数据库,根据矿产潜力评价数据的表特点设计rowkey,提高了地质大数据存储管理、查询检索的效率。通过与O racle关系数据库的数据入库、数据检索对比实验,验证了HBase在处理海量地质数据方面的优越性。
[Abstract]:The diversity of geological data collection methods has led to the continuous growth of data scale, which has reached the 5 "V" characteristic of "geological big data", and the complexity of data management and analysis has been increasing. It is becoming more and more difficult to carry out efficient transportation and data mining for massive geological data. Therefore, new technical means are urgently needed to realize the intelligent service of geological data and the potential value of mining geological data. Distributed storage and cloud computing provide a new way to solve the above problems. Hadoop big data technology has attracted more and more attention from researchers at home and abroad, and has become a research hotspot in mass data storage, computing and mining technology. The purpose of this paper is to share and interoperate the accumulated geological data based on the virtual geological cloud platform. In this paper, we deeply study and explore the components of HDFS distributed file system (HDFS) in Hadoop cluster, such as HDFS Reduce parallel programming framework, Hbase column storage database and so on. Combined with the evaluation data of geological and mineral potential in China, Hadoop technology is applied to the analysis and research of geological big data. The main work of this paper is as follows: (1) through the research of cloud computing and big data, the concept and key technology of cloud computing are expounded, and the architecture of geological cloud platform is put forward. The requirements of open source cloud computing and storage framework (Hadoop,), especially distributed file system (HDFS,) parallel computing framework (Map Reduce) and column storage Hbase. (2), are analyzed by integrating, sharing and querying massive geological data. A cloud data computing and storage cluster platform based on Master/Slave architecture is built by using distributed storage technology and virtualization technology. The use of HDFS and Map Reduce, in the Hadoop system provides a powerful technical support for us to design a massive geological data storage architecture, which is finally implemented in high concurrency. The geological data is accessed efficiently in the high-load cluster environment. (3) based on the cloud storage of Hadoop cluster, the optimization of merging and storing small files in HDFS is solved, and the Map Reduce algorithm is used to make the merging process more efficient. At the same time, considering all the load factors as a whole, using the information entropy algorithm to determine the weight value, after the multi-wheel load balancing, improve the system to deal with the high concurrency, optimize the file reading and writing, The system efficiency has been greatly improved. (4) the HBase database based on virtual cloud platform is studied. According to the table characteristics of mineral potential evaluation data, rowkey, is designed to improve the efficiency of geological big data storage management and query retrieval. The superiority of HBase in dealing with massive geological data is verified by the data input and data retrieval contrast experiment with O racle relational database.
【学位授予单位】:湖南科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:P628

【参考文献】

相关期刊论文 前10条

1 林文煜;戴青云;曹江中;何小明;李能;;一种基于内容的海量图像检索框架的设计与实现[J];电脑知识与技术;2016年09期

2 谭永杰;;地质大数据与信息服务工程技术框架[J];地理信息世界;2016年01期

3 陈静;;基于Hadoop云计算平台的文本处理算法的研究与改进[J];天津科技;2016年01期

4 朱月琴;谭永杰;张建通;毛波;沈婕;汲超飞;;基于Hadoop的地质大数据融合与挖掘技术框架[J];测绘学报;2015年S1期

5 邵奇峰;李枫;;一种基于HBase的空间关键字查询算法[J];计算机工程与科学;2015年11期

6 李朝奎;严雯英;肖克炎;赵亚楠;;地质大数据分析与应用模式研究[J];地质学刊;2015年03期

7 李超岭;李丰丹;李健强;刘园园;刘畅;吕霞;;智能地质调查体系与架构[J];中国地质;2015年04期

8 严光生;薛群威;肖克炎;陈建平;缪谨励;余海龙;;地质调查大数据研究的主要问题分析[J];地质通报;2015年07期

9 陈建平;李婧;崔宁;于萍萍;;大数据背景下地质云的构建与应用[J];地质通报;2015年07期

10 赵鹏大;;大数据时代数字找矿与定量评价[J];地质通报;2015年07期

相关博士学位论文 前2条

1 李源林;基于服务器虚拟化的网络GIS集群关键技术研究[D];中国地质大学;2013年

2 康俊锋;云计算环境下高分辨率遥感影像存储与高效管理技术研究[D];浙江大学;2011年

相关硕士学位论文 前7条

1 张振猛;基于Hadoop的海量文件存储系统的分析与设计[D];北京工业大学;2015年

2 李洁;基于Hadoop的海量视频的分布式存储与检索研究[D];南京邮电大学;2015年

3 张卫东;基于Hadoop的海量图片云存储系统研究与设计[D];中国海洋大学;2014年

4 陈时远;基于HDFS的分布式海量遥感影像数据存储技术研究[D];中国科学院大学(工程管理与信息技术学院);2013年

5 张新荣;基于HBase的小文件存储系统的研究及实现[D];东北大学;2012年

6 刘浩;基于负载均衡的存储架构研究与应用[D];山东大学;2011年

7 孔舟;分布式虚拟化计算平台高可靠任务拆分系统的设计与实现[D];电子科技大学;2011年



本文编号:2201822

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/kuangye/2201822.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ce5f7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com