当前位置:主页 > 科技论文 > 矿业工程论文 >

基于Hadoop的煤炭企业数据共享平台设计与实现

发布时间:2018-07-10 07:15

  本文选题:信息孤岛 + 海量数据 ; 参考:《西安科技大学》2015年硕士论文


【摘要】:煤炭在我国能源消费中占有很大比重,而大型国有煤炭企业在我国煤炭生产领域掌握着统治地位,为保障我国的能源安全、经济发展和社会稳定做出了突出贡献。为了提高企业的生产效率、降低企业运营成本、预防煤矿安全事故,煤炭企业纷纷建立了自己的信息化系统。但由于在建设时没有进行合理的规划,不同信息化系统之间数据不能共享,在企业内部形成众多“信息孤岛”。一些煤炭企业为了打破“信息孤岛”,陆续建立起了数据共享平台,但这些数据共享平台无法满足当前煤炭企业信息化系统中的海量数据处理需求。Hadoop是一个分布式系统基础架构,依靠集群的方式在廉价机器上提供高速运算和海量存储。Hadoop使运行和处理大数据更加方便,为解决煤炭企业数据中心存在的问题提供了一条有效的途径。论文通过对于煤炭企业数据中心所面临的大数据处理难题的研究和分析,首先建立了煤炭企业数据共享模型,该模型在Hadoop上建立一个数据仓库,从源数据库按照要求抽取的数据经过数据集成后存储于数据仓库中,通过向外提供统一的数据接口,为用户提供数据访问和数据分析的服务。其次,针对某煤炭企业的实际需求,以该煤炭企业的生产数据为例,完成了数据共享平台的设计。完成了Hadoop平台和服务器端数据模型的设计。对应用Sqoop进行数据抽取的过程进行了阐述。定义了数据清洗和转换的要求和方法。详细介绍了应用的并行FP-Growth算法的算法流程,并设计了几个简单示例应用。最后,对平台功能进行了力所能及的实现。依据设计要求,通过Sqoop将数据从源数据库中抽取出来,放入Hive数据仓库中。Hive和Eclipse集成,在Eclipse下编程实现数据的清洗、转换和加载。应用Eclipse调用Mahout的并行FP-Growth方法进行数据分析,并将结果保存在数据库中。将数据处理结果导入到平台数据库中,并基于Spring架构,在服务器端完成了示例应用的开发。基于Hadoop的煤炭企业数据共享平台,利用Hadoop平台采用成熟的开源的技术,拥有强大的处理能力和高稳定性,不仅提高了实现数据共享的效率,同时可以满足对这些数据进行分析和处理的需求,而且降低了企业数据中心的运营成本。该平台有效的解决了煤炭企业信息系统中普遍存在的“信息孤岛”和海量数据的问题,煤炭企业可以基于此平台进一步开发特定的功能应用,为企业生产经营提供帮助。
[Abstract]:Coal occupies a large proportion in China's energy consumption, while large state-owned coal enterprises hold a dominant position in the field of coal production in China, which has made outstanding contributions to ensuring the energy security, economic development and social stability of our country. In order to improve the production efficiency, reduce the operation cost and prevent coal mine safety accidents, coal enterprises have established their own information systems. However, due to the lack of reasonable planning in construction, the data between different information systems can not be shared, forming a large number of "information isolated islands" in the enterprise. In order to break the "information island", some coal enterprises have set up a data-sharing platform one after another. However, these data sharing platforms can not meet the needs of mass data processing in the current information system of coal enterprises. Hadoop is a distributed system infrastructure. Relying on cluster to provide high speed operation and mass storage. Hadoop makes it more convenient to run and process big data on cheap machines. It provides an effective way to solve the problems existing in data centers of coal enterprises. Based on the research and analysis of the big data processing problem faced by the coal enterprise data center, this paper first establishes the coal enterprise data sharing model, and the model establishes a data warehouse on Hadoop. The data extracted from the source database is stored in the data warehouse after data integration. By providing a unified data interface, the data access and data analysis services are provided for the users. Secondly, according to the actual demand of a coal enterprise, taking the production data of the coal enterprise as an example, the design of the data sharing platform is completed. The design of Hadoop platform and server-side data model is completed. The process of data extraction using Sqoop is described. The requirements and methods of data cleaning and conversion are defined. The algorithm flow of parallel FP-Growth algorithm is introduced in detail, and several simple examples are designed. Finally, the platform function can be realized. According to the design requirements, the data is extracted from the source database through Sqoop, and put into the Hive data warehouse. Hive integrates with Eclipse, and the data is cleaned, transformed and loaded by programming under Eclipse. Using Eclipse to call Mahout's parallel FP-Growth method to analyze the data and save the results in the database. The data processing result is imported into the platform database, and based on Spring architecture, the example application is developed on the server side. The coal enterprise data sharing platform based on Hadoop, using Hadoop platform with mature open source technology, has strong processing ability and high stability, which not only improves the efficiency of data sharing, but also improves the efficiency of data sharing. At the same time, it can meet the needs of data analysis and processing, and reduce the operating cost of enterprise data center. The platform effectively solves the problems of "information isolated island" and massive data in the information system of coal enterprises. Coal enterprises can further develop specific functional applications based on this platform to provide help for production and management of enterprises.
【学位授予单位】:西安科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:F426.21;TP311.13

【相似文献】

相关期刊论文 前5条

1 杨斌;檀傈锰;田勇;张利欣;金莹;;材料腐蚀数据共享平台构建方法研究[J];中国腐蚀与防护学报;2011年03期

2 赵卫利;陈晓毅;靳红;;科学数据共享平台,支撑优势产业发展研究[J];科技与经济;2008年02期

3 方利;王文杰;高振记;王明浩;花洁;曾秀俐;;基于SOA的环境科学数据共享平台设计与实践[J];环境工程技术学报;2014年04期

4 华丽;楚世国;吴国年;魏发灿;黄晓创;张玉锋;;耐火材料科学数据共享平台的开发及应用[J];耐火材料;2009年05期

5 ;[J];;年期

相关会议论文 前6条

1 刘德培;尹岭;;国家人口健康科学数据共享平台[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会壁报展示论文[C];2010年

2 于洪伟;金永利;葛智刚;;核数据共享平台的研究[A];第十二届全国核物理大会暨第七届会员代表大会论文摘要集[C];2004年

3 闫铭玉;宋扬;;先进制造与自动化科学数据共享平台设计及实现[A];先进制造技术高层论坛暨第六届制造业自动化与信息化技术研讨会论文集[C];2007年

4 刘逸敏;;面向医学数据共享平台的协同管理架构[A];中华医学会医学工程学分会第十次学术年会暨2009中华临床医学工程及数字医学大会论文集[C];2009年

5 罗朝宇;衣丰超;袁兴刚;陈满意;;基于一体化平台数据中心的数据共享平台在电力企业的应用[A];2013电力行业信息化年会论文集[C];2013年

6 谢垂民;黄海峰;王核;;GIS技术在外经贸信息化中的应用尝试[A];中国测绘学会2006年学术年会论文集[C];2006年

相关重要报纸文章 前8条

1 记者 冷德熙;我国人口与健康数据共享平台进入运行阶段[N];科技日报;2010年

2 刘泉平;搭建数据共享平台 促进社会科学的交流与发展[N];中国社会科学院院报;2007年

3 张中宝;省数据共享平台一期正式运行[N];海南日报;2008年

4 朱彦斌 李王军 记者 宋伟;科技部专家视察市医院新型农村远程数据共享平台准备情况[N];延安日报;2011年

5 记者 刘鹏;江西打造水利数据共享平台[N];中国水利报;2012年

6 徐维荣邋戴红军;六合地税搭建数据共享平台[N];中国税务报;2008年

7 通讯员 陈强;我市被评选为全国智慧城市试点[N];四平日报;2013年

8 韶关日报记者 李陶猛 通讯员 李文柱;我市信息化建设首获国家级金奖[N];韶关日报;2012年

相关博士学位论文 前2条

1 赵胜钢;国家农业科学数据共享平台体系结构研究[D];中国农业科学院;2009年

2 陈学君;甘肃省气象科学数据共享平台及其应用研究[D];兰州大学;2009年

相关硕士学位论文 前10条

1 唐维维;基于云计算的区域医疗信息数据共享平台的设计与实现[D];中国人民解放军医学院;2015年

2 秦旭珊;基于Django的气象数据共享平台的设计和实现[D];电子科技大学;2015年

3 邹森忠;空间数据共享平台的数据交换与检索及应用模型研究[D];中国地质大学(北京);2013年

4 赵嘉;基于Hadoop的煤炭企业数据共享平台设计与实现[D];西安科技大学;2015年

5 周們;网络化医院感染监测数据共享平台的研究与实现[D];中国人民解放军军事医学科学院;2010年

6 肖凯;基于元数据的湖泊—流域数据共享平台研究[D];南京大学;2011年

7 钱大君;崇明岛生态环境数据共享平台开发研究[D];华东师范大学;2008年

8 李杰;海洋数据共享平台关键技术研究与开发[D];天津大学;2008年

9 程渭;空间环境科学数据共享平台研究与实现[D];中国地质大学(北京);2010年

10 戴琼洁;陕西省科学数据共享平台运行机制研究[D];西安电子科技大学;2011年



本文编号:2112581

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/kuangye/2112581.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a5779***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com