当前位置:主页 > 科技论文 > 信息工程论文 >

Hadoop技术在油气生产物联网中的应用研究

发布时间:2020-07-24 18:33
【摘要】:在石油勘探行业中,伴随着物联网技术的不断应用,油气开发环境和业务环境中产生了海量的数据。收集数据成本的逐渐降低和收集数据意识的不断提高,使油田上积累了海量、多维度的油气生产和管理数据。然而“海量的生产数据”与“匮乏的油田认知”逐渐成为油田行业发展的瓶颈。油气生产非结构化数据量庞大、类型众多,主要包含各种没有固定格式的基本业务数据体、生产成果文档、生产报表及“四化”(模块化建设、标准化设计、信息化提升、标准化采购)建设等数据,数据量在6TB~8TB。当前油气生产数据量的与日俱增,大大超出了传统数据库的存储范围,常规的数据库(如:My SQL、SQL Server、DB2等)存储和数据处理方法遇到了瓶颈。Hadoop作为一种新兴的分布式数据存储和计算框架,具有高可靠性、高扩展性、高效性和高容错性的特点,为存储和处理海量油气生产数据提供了新的思路。因此,本文将Hadoop技术应用于油气生产物联网中,设计并部署了Hadoop油气生产数据存储平台,并基于历史生产数据改进了油气产量预测模型,具体工作重点如下:首先,对Hadoop研究现状和技术优势进行分析归纳,明确油气生产数据在存储方面遇到的困难,从而确定将Hadoop技术应用到油气生产中用于可靠存储、高效查询和数据挖掘分析。其次,针对油田现场生产数据具有数据结构复杂,数据规模庞大,数据间关联性大等特点,结合Hadoop技术,本文设计了一种基于Hadoop技术的油气生产数据存储平台,实现了不同种类数据在Hadoop平台和传统数据库中共享交互,有利于在日后生产中对数据做深入的分析和挖掘。对于非结构化数据的存储设计,利用基于HDFS的HBase作为存储数据库;对于结构化数据的存储设计,采用了Oracle数据库作为离线数据仓库,提供离线的历史数据分析。而对于需要被实时查询的生产数据,则通过Redis内存数据库完成。在理论设计的基础上,实现了Hadoop油气生产数据存储平台的部署,并且对平台的性能进行测试,说明将Hadoop技术应用到油气生产物联网中是高效的、可行的。最后,针对国内许多油田已经进入产量递减阶段的问题,通过基于Hadoop平台存储的历史生产数据,在双曲递减跟指数递减模型的基础上提出了一种最优加权组合法产量预测模型,通过三种模型的预测结果和实际产量进行对比,得出最优加权组合预测模型的预测结果最逼近实际产量,具有极好的预测效果,可以考虑在广大油田试点运行。
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TE938;TP391.44;TN929.5
【图文】:

副本,数据块


根据文件的元数据信息,客户端直接访获取完整文件。的数据管理可以看出,文件被切分为多个数据块,多个数据上,除了最后一个,每个数据块默认大小都是 128认块的大小。份容错性使得 HDFS 会对 DataNode 节点上的所有数 HDFS 时可以指定。在 Hadoop 系统中,HDFS 数de 定期的向 NameNode 发送“心跳”数据,NameN确认每个 DataNode 节点的健康状态。“心跳”发 NameNode 在 10 分钟内没有收到 DataNode 发送 DataNode 视为宕机处理,同时在其他 DataNode FS 数据块副本结构如图 2.2 所示:NameNode 管理数据库的复制数据块副本结构

数据处理过程


2. 浏览器访问 HDFS通过地址 http://hadoop:50070/访问 HDFS 的 Web 页面,并可以查看 NameNDateNode 的详细信息。3 MapReduce 并行计算框架MapReduce 是适合海量数据并行计算的框架模型,该模型简单易于编程良好的拓展性和容错性。MapReduce 框架也类似于 HDFS 中的主从式架构唯一的 Master 节点 JobTracker 和多个 Slave 节点 TaskTracker,JobTracker 务管理者负责调度所有的作业程序,TaskTracker 则是负责执行 JobTracker MapReduce 程序。MapReduce 框架对数据处理的过程如图 2.3 所示[52]:数据输入Map任务创建目录 hadoop fs -mkdir 目录地址上传文件 hadoop fs -put 文件地址查看文件内容 hadoop fs -more 文件地址显示目录所示文件 hadoop fs -ls 目录地址

流程图,命令处理,流程,内存数据库


MapReduce(集群资源管理&数据处理)HDFS(冗余,可靠存储)Hadoop1.XHadoop2.XMapReduce(数据处理)Others(数据处理)YARN(集群资源管理)HDFS(冗余,可靠存储)图 2.5 Hadoop 两代平台框架对比is 内存数据库s 是一个 Key-Value 形式存储的内存数据库,它支持多种数据类s、Lists、Sets、Sorted Sets 和 Hashes,对应的入库/出库操为sadd/smove、zadd/zrem。Redis 还支持差集、并集、交集等所有的数据加载到内存中,官方提供的数据表明,在一个普通Redis 读写速度分别达到 81000/s 和 110000/s,由此见 Redis 读Redis 数据库处理流程如图 2.6 所示。

【参考文献】

相关期刊论文 前10条

1 吴军;滕卫卫;哈丽扎提·铁木尔;张新政;杨磊;;无线传感技术在油气生产物联网中的应用与发展[J];中国管理信息化;2015年18期

2 刘新海;;阿里巴巴集团的大数据战略与征信实践[J];征信;2014年10期

3 黄明燕;蔡祖锐;;云计算教育应用研究综述[J];软件导刊(教育技术);2014年01期

4 李建华;薛广民;陈冰;;油气生产物联网技术在油气生产中的应用[J];自动化博览;2013年11期

5 王浩;;云存储与网络相互影响的研究[J];计算机工程;2013年10期

6 牛禄青;;大数据时代来临[J];新经济导刊;2013年Z1期

7 杨炳忻;;香山科学会议第420-424次学术讨论会简述[J];中国基础科学;2012年04期

8 韦雪琼;杨晔;史超;;大数据发展下的金融市场新生态[J];时代金融;2012年21期

9 林伟伟;;一种改进的Hadoop数据放置策略[J];华南理工大学学报(自然科学版);2012年01期

10 向小军;高阳;商琳;杨育彬;;基于Hadoop平台的海量文本分类的并行化[J];计算机科学;2011年10期

相关硕士学位论文 前9条

1 赵嘉;基于Hadoop的煤炭企业数据共享平台设计与实现[D];西安科技大学;2015年

2 张传文;基于大数据的区域医疗信息共享体系研究[D];华南理工大学;2015年

3 荆超;基于MapReduce分布式信令分析研究与实现[D];北京邮电大学;2012年

4 黄钟元;Hadoop平台下的关系数据库查询与实现[D];复旦大学;2011年

5 余正祥;基于hadoop平台作业调度算法的研究[D];云南大学;2011年

6 马超;基于云计算的海量旅行数据分析[D];北京邮电大学;2011年

7 黄晓云;基于HDFS的云存储服务系统研究[D];大连海事大学;2010年

8 李云桃;基于Hadoop的海量数据处理系统的设计与实现[D];哈尔滨工业大学;2009年

9 朱珠;基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年



本文编号:2769234

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2769234.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47c7a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com