面向流式数据的工业质量数据分析平台
发布时间:2021-06-28 22:47
大数据处理技术是当代信息技术领域的重要发展方向之一,随着大数据相关技术的不断发展与应用,实时计算领域越来越被关注。以Hadoop为代表的基于MapReduce计算框架的大数据处理技术往往是通过批处理方式对历史数据进行分析,而实时计算领域则强调的是对瞬时数据进行在线处理。另一方面,传统工业企业产品在生产过程中,无时无刻不在产生着海量的数据,典型的如工业设备传感器数据等。这些数据的特征是连续、无限增长、无序,并且需要实时响应,被称为流式数据。工业企业在面对这些海量的流式数据时,主要有以下三点问题:1)无法解决海量流式数据的大规模存储问题;2)像对待普通数据一样处理流式数据,无法发挥流式数据实时性的特点;3)传统的技术架构无法对流式数据进行更高维度的分析,不能应用机器学习模型等新兴技术手段去分析处理。显然,以传统的数据分析处理方法并不能对流式数据进行有效的分析及存储。如何去挖掘工业质量流式数据更深层次的价值,对这些质量数据进行各个维度的分析,并且以可视化的形式动态展现给普通用户,是本文研究的主要目的。基于本课题(面向工业企业的质量大数据分析云服务平台)的实际研究背景与需求,本文从一个相对通用...
【文章来源】:安徽工业大学安徽省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
总体逻辑设计
图 2.2 总体架构设计2.1.3 设计原则前面已经提到,本文主要研究目的之一就是提出一个高可用、高效率、高度可扩展的面向流式数据的实时计算框架。因此,平台需要在遵循一定原则的基础上进行设计与开发,具体来说,贯穿本平台的总体设计原则主要有如下几个方面:1)总体设计原则:高可用,高效率,通用性的设计准则,在功能模块设计上做到粗粒度,低耦合,让每个模块都可以独立开发,并且可以完成相应的替换。2)数据存储原则:在不同的业务场景下选择不同的数据存储模块。3)服务化原则:尽可能地让一个模块作为一个服务去运行,避免服务间的相互影响,有效降低平台各个功能模块间的耦合性。
图 2.3 FlumeAgent 运行架构由于 Flume 本身不支持实时采集关系型数据库的流式数据,因此需要使用 Flume 的高级自定义源的开发,可以通过 FlumeAgent 来实时监控关系型数据库。flume-ng-sql-source 是一个基于 Flume 组件的开源项目,用来使 FlumeAgent 连接关系型数据库,实时监控关系型数据库的变化,其底层是通过 RowIndex 索引机制来捕捉数据的增加。通过 flume-ng-sql-source 组件采集数据,只需要在 Flume Agent 的 Source 端(见图 2.3)配置相应的关系型数据库连接信息即可。由于 flume-ng-sql-source 底层采用的是 hibernate 作为数据库的连接,故只需要根据hibernate 的官方文档给出的格式进行配置即可,但是由于该组件官方并不支持本文的实时数据库 InSql,因此本文对其进行重新编译开发以使其支持 InSql 数据源的采集,这也是本文大量采用开源组件进行开发设计的主要原因。2.2.2 Kafka 消息队列中间件使用 Flume 采集数据的关键在于配置 FlumeSource、FlumeChannel、FlumeSink 这三个组件,其中FlumeSource的配置源的选区在上一节已经提到。FlumeChannel一般设置为Memory,
【参考文献】:
期刊论文
[1]基于Spark Streaming的实时交通数据处理平台[J]. 谭亮,周静. 计算机系统应用. 2018(10)
[2]基于Spark Streaming的在线KMeans聚类模型研究[J]. 侯敬儒,吴晟,李英娜. 计算机与数字工程. 2018(04)
[3]流式大数据实时处理技术、平台及应用[J]. 陈纯. 大数据. 2017(04)
[4]基于Spark Streaming流回归的煤矿瓦斯浓度实时预测[J]. 吴海波,施式亮,念其锋. 中国安全生产科学技术. 2017(05)
[5]分布式流数据加载和查询技术优化[J]. 易佳,薛晨,王树鹏. 计算机科学. 2017(05)
[6]流式数据查询系统[J]. 王栋,张潇,武延军. 计算机系统应用. 2016(09)
[7]基于Hadoop的大数据计算技术[J]. 查礼. 科研信息化技术与应用. 2012(06)
硕士论文
[1]基于Kubemetes的大数据流式计算Spark平台设计与实现[D]. 杜威科.南京邮电大学 2017
[2]基于Spark Streaming的流聚类算法StreamCKS的设计与实现[D]. 张玉侠.华侨大学 2017
[3]一种基于STORM的交通流数据实时处理系统设计与实现[D]. 南海京.北方工业大学 2015
本文编号:3255176
【文章来源】:安徽工业大学安徽省
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
总体逻辑设计
图 2.2 总体架构设计2.1.3 设计原则前面已经提到,本文主要研究目的之一就是提出一个高可用、高效率、高度可扩展的面向流式数据的实时计算框架。因此,平台需要在遵循一定原则的基础上进行设计与开发,具体来说,贯穿本平台的总体设计原则主要有如下几个方面:1)总体设计原则:高可用,高效率,通用性的设计准则,在功能模块设计上做到粗粒度,低耦合,让每个模块都可以独立开发,并且可以完成相应的替换。2)数据存储原则:在不同的业务场景下选择不同的数据存储模块。3)服务化原则:尽可能地让一个模块作为一个服务去运行,避免服务间的相互影响,有效降低平台各个功能模块间的耦合性。
图 2.3 FlumeAgent 运行架构由于 Flume 本身不支持实时采集关系型数据库的流式数据,因此需要使用 Flume 的高级自定义源的开发,可以通过 FlumeAgent 来实时监控关系型数据库。flume-ng-sql-source 是一个基于 Flume 组件的开源项目,用来使 FlumeAgent 连接关系型数据库,实时监控关系型数据库的变化,其底层是通过 RowIndex 索引机制来捕捉数据的增加。通过 flume-ng-sql-source 组件采集数据,只需要在 Flume Agent 的 Source 端(见图 2.3)配置相应的关系型数据库连接信息即可。由于 flume-ng-sql-source 底层采用的是 hibernate 作为数据库的连接,故只需要根据hibernate 的官方文档给出的格式进行配置即可,但是由于该组件官方并不支持本文的实时数据库 InSql,因此本文对其进行重新编译开发以使其支持 InSql 数据源的采集,这也是本文大量采用开源组件进行开发设计的主要原因。2.2.2 Kafka 消息队列中间件使用 Flume 采集数据的关键在于配置 FlumeSource、FlumeChannel、FlumeSink 这三个组件,其中FlumeSource的配置源的选区在上一节已经提到。FlumeChannel一般设置为Memory,
【参考文献】:
期刊论文
[1]基于Spark Streaming的实时交通数据处理平台[J]. 谭亮,周静. 计算机系统应用. 2018(10)
[2]基于Spark Streaming的在线KMeans聚类模型研究[J]. 侯敬儒,吴晟,李英娜. 计算机与数字工程. 2018(04)
[3]流式大数据实时处理技术、平台及应用[J]. 陈纯. 大数据. 2017(04)
[4]基于Spark Streaming流回归的煤矿瓦斯浓度实时预测[J]. 吴海波,施式亮,念其锋. 中国安全生产科学技术. 2017(05)
[5]分布式流数据加载和查询技术优化[J]. 易佳,薛晨,王树鹏. 计算机科学. 2017(05)
[6]流式数据查询系统[J]. 王栋,张潇,武延军. 计算机系统应用. 2016(09)
[7]基于Hadoop的大数据计算技术[J]. 查礼. 科研信息化技术与应用. 2012(06)
硕士论文
[1]基于Kubemetes的大数据流式计算Spark平台设计与实现[D]. 杜威科.南京邮电大学 2017
[2]基于Spark Streaming的流聚类算法StreamCKS的设计与实现[D]. 张玉侠.华侨大学 2017
[3]一种基于STORM的交通流数据实时处理系统设计与实现[D]. 南海京.北方工业大学 2015
本文编号:3255176
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3255176.html