基于Hadoop生态圈的工业数据平台设计与研究
发布时间:2021-12-23 09:15
当今,“得数据者得天下”已经成为全球共识,数据不再是社会生产的“副产物”,它变成了生产资料、可被多次加工的原料,并从中挖掘出更大价值。可以预言,未来企业的核心竞争力的基础就是该公司数据的积累、处理与变现能力。然而,作为实体经济的“掌上明珠”的制造业,正成为大数据融合的主战场,随着产业结构的持续升级,以及软件、网络、装备等各交叉领域间技术跨界融合,都为工业大数据在制造业的发展提供了一定的技术基础。本文提出一种基于Hadoop生态圈的工业数据平台设计方案,并进行分析研究;探讨了HDFS分布式文件系统、Spark计算框架、列式数据库、可视化应用的信息化工业数据平台搭建全过程多个关键技术点。剖析了所运用到的Hadoop生态圈组件的详细运行机制,并针对Hadoop实际数据存储场景的不足补充关于列式设计与大规模并行处理的关系型数据库优化策略;本文从实际项目中总结平台需求,梳理平台整体的客户要求,然后从技术角度上描述了该平台所需要的技术功能模块,进而以运维人员和使用客户的角度,以及从稳定性、人际交互等要素对平台进行了非功能性需求分析,最终明确了平台最终规模、预期效果。本文以前沿技术理论为依托,结合先...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
工业大数据在智能制造中的关键作用目前,工业、信息通信和互联网等各领域的企业纷纷布局
发掘行业信息资源价值,提高工业大数据的利用率,是当前迫切需要解决的问题。1.3 Hadoop 生态圈Hadoop[11-12]起源于谷歌在 2003 年和 2004 年发表了 GFS[13]和 MapReduce[14]两篇论文,最开始是针对大数据处理需求提出的分布式存储技术。自 2006 年面世以来Hadoop 技术发展迅猛,其技术生态圈也日益壮大,从原先只有 HDFS 和 MapRedu两个组件发展到目前的 60 多个组件,覆盖了从数据存储、计算引擎到数据访问框架等各个层面,目前大数据技术基本都依赖于 Hadoop 生态系统下的东西(除了谷歌自有系统),HDFS,Hive,HBase 仍然是解决巨量数据存储和 ETL 的必要工具(即使是亚马逊的 S3 也是 HDFS)。Hadoop 继承了 GFS 和 MapReduce 的高效分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使其在大规模数据处理分析和处理,为大数据提供了一个完整的、多种选择地解决方案。
设计灵感来自谷歌发表于 2003 年 10 月的 GFS 论文,它是 Had统,也是本文平台存储架构的核心。HDFS 有着同其他分布式文主要指适合运行在低成本通用硬件集群上[16],但又同其他分布式或者说进一步得到优化。 是一个多层次的架构,除了绪论中的简单介绍之外,它是基于模式,一个 Namenode(管理节点)和多个 Datanode(工作节点讯即 RPC[17]来实现层间的信息交互。 由三个层次组成:客户端层、名称节点层和数据节点层,基于集群,并可以通过增加附加集群节点扩展数据存储规模,分布于taNode),并对文件块进行备份存储,由 Namenode(数据管理据块将均衡地分布,建立高容错性和保护机制,保证数据或节点使用,实时监测数据和性能;如图 2-1 所示。
【参考文献】:
期刊论文
[1]使用虚拟机搭建Hadoop3.0集群安装环境[J]. 杨云海,章芬芬. 现代信息科技. 2018(10)
[2]基于HTML5与物联网技术的大数据中心机房智能管理系统[J]. 彭灿华,杨呈永,张玉斌. 实验室研究与探索. 2018(04)
[3]基于HTML5的大数据可视化展示平台设计与实践[J]. 吴晓宁. 信息技术与标准化. 2018(04)
[4]大数据应用的现状与展望[J]. 余聂芳. 数码世界. 2017(12)
[5]工业大数据发展现状及前景展望[J]. 范学军. 现代电信科技. 2017(04)
[6]基于ASP.NET MVC6框架的Web应用开发研究[J]. 周宝昌. 电脑知识与技术. 2017(02)
[7]大数据流式计算:应用特征和技术挑战[J]. 孙大为. 大数据. 2015(03)
[8]大数据平台下的工业优化——面向节能降耗的水泥生产优化决策系统简介[J]. 凡福林. 中国设备工程. 2015(06)
[9]面向智能电网应用的电力大数据关键技术[J]. 彭小圣,邓迪元,程时杰,文劲宇,李朝晖,牛林. 中国电机工程学报. 2015(03)
[10]云平台下输变电设备状态监测大数据存储优化与并行处理[J]. 宋亚奇,周国亮,朱永利,李莉,王刘旺,王德文. 中国电机工程学报. 2015(02)
博士论文
[1]大数据处理技术与系统研究[D]. 顾荣.南京大学 2016
[2]面向PLM的数据挖掘技术和应用研究[D]. 徐河杭.浙江大学 2010
硕士论文
[1]基于Hadoop的女装商品推荐系统设计与实现[D]. 虞乐文.华中科技大学 2018
[2]基于Hadoop的电子商务推荐系统的设计与实现[D]. 彭兴.闽南师范大学 2016
[3]MES车间生产调度系统及其数据挖掘方法的研究[D]. 徐玉婷.南京航空航天大学 2007
本文编号:3548212
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
工业大数据在智能制造中的关键作用目前,工业、信息通信和互联网等各领域的企业纷纷布局
发掘行业信息资源价值,提高工业大数据的利用率,是当前迫切需要解决的问题。1.3 Hadoop 生态圈Hadoop[11-12]起源于谷歌在 2003 年和 2004 年发表了 GFS[13]和 MapReduce[14]两篇论文,最开始是针对大数据处理需求提出的分布式存储技术。自 2006 年面世以来Hadoop 技术发展迅猛,其技术生态圈也日益壮大,从原先只有 HDFS 和 MapRedu两个组件发展到目前的 60 多个组件,覆盖了从数据存储、计算引擎到数据访问框架等各个层面,目前大数据技术基本都依赖于 Hadoop 生态系统下的东西(除了谷歌自有系统),HDFS,Hive,HBase 仍然是解决巨量数据存储和 ETL 的必要工具(即使是亚马逊的 S3 也是 HDFS)。Hadoop 继承了 GFS 和 MapReduce 的高效分布式计算框架,在提供了前所未有的计算能力的同时,也大大降低了计算成本,使其在大规模数据处理分析和处理,为大数据提供了一个完整的、多种选择地解决方案。
设计灵感来自谷歌发表于 2003 年 10 月的 GFS 论文,它是 Had统,也是本文平台存储架构的核心。HDFS 有着同其他分布式文主要指适合运行在低成本通用硬件集群上[16],但又同其他分布式或者说进一步得到优化。 是一个多层次的架构,除了绪论中的简单介绍之外,它是基于模式,一个 Namenode(管理节点)和多个 Datanode(工作节点讯即 RPC[17]来实现层间的信息交互。 由三个层次组成:客户端层、名称节点层和数据节点层,基于集群,并可以通过增加附加集群节点扩展数据存储规模,分布于taNode),并对文件块进行备份存储,由 Namenode(数据管理据块将均衡地分布,建立高容错性和保护机制,保证数据或节点使用,实时监测数据和性能;如图 2-1 所示。
【参考文献】:
期刊论文
[1]使用虚拟机搭建Hadoop3.0集群安装环境[J]. 杨云海,章芬芬. 现代信息科技. 2018(10)
[2]基于HTML5与物联网技术的大数据中心机房智能管理系统[J]. 彭灿华,杨呈永,张玉斌. 实验室研究与探索. 2018(04)
[3]基于HTML5的大数据可视化展示平台设计与实践[J]. 吴晓宁. 信息技术与标准化. 2018(04)
[4]大数据应用的现状与展望[J]. 余聂芳. 数码世界. 2017(12)
[5]工业大数据发展现状及前景展望[J]. 范学军. 现代电信科技. 2017(04)
[6]基于ASP.NET MVC6框架的Web应用开发研究[J]. 周宝昌. 电脑知识与技术. 2017(02)
[7]大数据流式计算:应用特征和技术挑战[J]. 孙大为. 大数据. 2015(03)
[8]大数据平台下的工业优化——面向节能降耗的水泥生产优化决策系统简介[J]. 凡福林. 中国设备工程. 2015(06)
[9]面向智能电网应用的电力大数据关键技术[J]. 彭小圣,邓迪元,程时杰,文劲宇,李朝晖,牛林. 中国电机工程学报. 2015(03)
[10]云平台下输变电设备状态监测大数据存储优化与并行处理[J]. 宋亚奇,周国亮,朱永利,李莉,王刘旺,王德文. 中国电机工程学报. 2015(02)
博士论文
[1]大数据处理技术与系统研究[D]. 顾荣.南京大学 2016
[2]面向PLM的数据挖掘技术和应用研究[D]. 徐河杭.浙江大学 2010
硕士论文
[1]基于Hadoop的女装商品推荐系统设计与实现[D]. 虞乐文.华中科技大学 2018
[2]基于Hadoop的电子商务推荐系统的设计与实现[D]. 彭兴.闽南师范大学 2016
[3]MES车间生产调度系统及其数据挖掘方法的研究[D]. 徐玉婷.南京航空航天大学 2007
本文编号:3548212
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3548212.html