Spark集群环境下的分类数据离群检测及应用
发布时间:2021-11-12 12:01
工业大数据时代的到来推动了现代制造业的发展,制造业在发展过程中积累了大量数据。数据挖掘是大数据分析的一种有效途径,其挖掘结果能够应用在机械制造业的生产、管理和运营过程中,促进制造企业优化生产、改进生产工艺以及诊断设备故障等,以降低生产成本和提高企业运营效率。在当前机械产品加工中,由设备性能下降、精度损失、易损件磨损、人因等多种因素造成了隐性问题,一般不容易被发现但却会影响产品的质量。离群检测作为一种数据挖掘方法,可从机械产品加工数据中有效地发现隐性问题。本文在基于内存计算的Spark集群系统环境下,研究了分类数据离群检测理论、方法以及冷轧辊加工数据离群检测的方法,不仅为大数据分析提供了有效的并行离群检测新方法与实现途径,而且也为有效发现机械产品加工过程中可能存在的设备精度下降、检测者资质、加工环境等具有异常特征的隐性问题,提供了一种有效手段。其主要研究成果如下:(1)提出了一种基于特征分组的分类数据离群检测算法——WATCH。该算法通过度量数据特征间的相关性将数据特征分为多个特征组,可以发现隐藏在特征子空间中的离群值,有效提高了离群检测精度,而且可以从不同方面发现特征模式的差异性。实验...
【文章来源】:太原科技大学山西省
【文章页数】:124 页
【学位级别】:博士
【部分图文】:
大数据的5V特征
括聚类,分类,关联规则和离群检测等诸多算法。大数据挖掘不再是针对少量或是样本化、随机化的精准数据,而是海量,混杂的大数据。大数据挖掘的意义是从海量数据中找到有意义的模式或知识。数据挖掘的执行过程包含很多不同的步骤,其中输入的是原始数据,输出的是用户需要的有价值的信息。从原始数据中挖掘有用的信息是一个循环的、系统的过程。首先,分析获得的数据以确定合适的挖掘目标;其次选择恰当的挖掘方法提取有价值的数据。然后,评估生成的知识模式;最后将有价值的知识保存起来,便于应用。数据挖掘的执行过程如图1.2所示。图1.2数据挖掘的执行过程Figure1.2Executionprocessofdatamining数据挖掘的任务一般可以归纳为以下几个类别:分类、聚类、关联规则挖掘和离群检测等[7]。分类的目的是学习将数据库中的数据项映射到给定类别的分类函数或分类模型(通常称为分类器)。构造分类器的方法很多,例如基于统计的方法、基于机器学习的方法以及人工神经网络方法等。通常需要输入一个训练样本来构造分类器,训练样本中的每条数据记录是由属性组成的特征向量,以及训练样本的类别标记。聚类是对无类别的样本进行聚集,然后形成不同的组,其中的一组数据对象称为一个簇。聚类的目的是属于同一簇的数据对象之间应该彼此相似,而属于不同簇的数据对象之间应该尽量不同。聚类不同于分类的是,在聚类之前,我们不知道要划分多少组,划分什么样的组。其目的是发现数据对象属性之间的关系。聚类技术发展迅速,广泛应用于统计学习、机器学习、生物学等领域。聚类分析是数据挖掘中的一个主要任务,代表算法有:k-means算法、k-modes算法、BIRCH算法、DBSCAN算法等。关联规则是用于挖掘数据对象之间的相关性。最初关联规则应用于购物篮分析,用
Spark集群环境下的分类数据离群检测及应用6图1.3Spark基本工作流程图Figure1.3TheworkflowofSpark用户通过客户端提交作业给集群,驱动器节点将开始初始化操作执行环境(包括任务调度,作业阶段调度,等等),作业被分为多个任务,然后主节点向集群管理器ClusterManager申请资源,集群管理器根据报告的资源使用情况分配资源,Executor负责执行具体的任务,最后释放集群资源直到任务执行完成。Spark可以运行在Hadoop的数据源上,并且很好地融入Hadoop生态系统。与MapReduce编程模型相比,Spark具有以下三个优点:1)Spark框架将计算结果缓存在主存中,提高了迭代操作之间共享数据的能力,减少了磁盘操作的数量。2)Spark框架中的所有数据操作都由弹性分布式数据集RDD提供支持。3)Spark使用事件驱动库启动任务,提高通信效率,同时保持较低的任务调度开销。Spark生态圈是由BerkeleyAMP实验室搭建的一个大数据应用平台,包含了很多组件,例如SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等。Spark生态系统涵盖了许多应用领域,如机器学习、数据挖掘和信息检索等。利用各种方便灵活的技术解决方案对大规模的不透明数据进行筛选,转化为有用信息,让人们可以更好地了解世界。如图1.4所示,Spark是一个集成了多个组件的一站式解决方案平台。其中SparkCore为Spark生态圈的核心,提供了一个内存计算框架。SparkStreaming用于实时应用程序、SparkSQL用于查询、MLlib或MLbase用于机器学习,GraphX用于图处理。从HDFS、HBase等读取数据,并使用MESOS、YARN和它自己的Standalone为资源管理器调度作业,从而完成Spark应用程序的计算。
【参考文献】:
期刊论文
[1]故障诊断及预测性维护在智能制造中的应用[J]. 祝旭. 自动化仪表. 2019(07)
[2]大数据挖掘及应用[J]. 王国胤,刘群,于洪,曾宪华. 科技与出版. 2018(04)
[3]工业大数据技术综述[J]. 王建民. 大数据. 2017(06)
[4]基于互信息的混合属性数据特征选择方法[J]. 刘海涛,魏汝祥,袁昊劼. 海军工程大学学报. 2016(04)
[5]从大数据到智能制造[J]. 张礼立. 中国工业评论. 2016(07)
[6]智能制造——“中国制造2025”的主攻方向[J]. 周济. 中国机械工程. 2015(17)
[7]基于混合粒子群算法的复杂机械产品装配质量控制阈优化方法[J]. 王小巧,刘明周,葛茂根,马靖,刘从虎. 机械工程学报. 2016(01)
[8]智能制造:全球趋势与中国战略[J]. 吕铁,韩娜. 人民论坛·学术前沿. 2015(11)
[9]Top-k Outlier Detection from Uncertain Data[J]. Salman Ahmed Shaikh,Hiroyuki Kitagawa. International Journal of Automation and Computing. 2014(02)
[10]基于粒子群BP神经网络的质量预测模型[J]. 徐兰,方志耕,刘思峰. 工业工程. 2012(04)
博士论文
[1]集群环境下的关联规则挖掘及应用[D]. 荀亚玲.太原科技大学 2017
硕士论文
[1]埃美柯阀门车间智能制造系统改造方法研究[D]. 徐伟峰.宁波大学 2017
[2]Hadoop平台下基于聚类和关联规则算法的工程车辆故障预测研究[D]. 武霞.太原科技大学 2015
[3]基于数据挖掘方法的冷轧表面质量缺陷分析[D]. 郭龙波.安徽工业大学 2012
[4]PG炼钢厂MES系统数据挖掘的设计与开发[D]. 张玉东.电子科技大学 2011
[5]基于模式识别和数据挖掘的铝工业生产节能降耗研究[D]. 娄小芳.国防科学技术大学 2010
[6]冷轧辊质量统计与分析系统—质量分析子系统的设计与实现[D]. 陈纲.东北大学 2010
[7]基于数据挖掘技术的矿用提升机故障预警系统的研究[D]. 王诗.北京邮电大学 2009
[8]汽车售后服务故障件管理及数据挖掘技术应用研究[D]. 罗洪波.西南交通大学 2008
[9]基于数据挖掘方法的热轧带钢表面质量缺陷分析[D]. 宋健.上海交通大学 2008
[10]金属镀层工件表面缺陷自动检测系统的研究[D]. 丁金明.天津大学 2004
本文编号:3490873
【文章来源】:太原科技大学山西省
【文章页数】:124 页
【学位级别】:博士
【部分图文】:
大数据的5V特征
括聚类,分类,关联规则和离群检测等诸多算法。大数据挖掘不再是针对少量或是样本化、随机化的精准数据,而是海量,混杂的大数据。大数据挖掘的意义是从海量数据中找到有意义的模式或知识。数据挖掘的执行过程包含很多不同的步骤,其中输入的是原始数据,输出的是用户需要的有价值的信息。从原始数据中挖掘有用的信息是一个循环的、系统的过程。首先,分析获得的数据以确定合适的挖掘目标;其次选择恰当的挖掘方法提取有价值的数据。然后,评估生成的知识模式;最后将有价值的知识保存起来,便于应用。数据挖掘的执行过程如图1.2所示。图1.2数据挖掘的执行过程Figure1.2Executionprocessofdatamining数据挖掘的任务一般可以归纳为以下几个类别:分类、聚类、关联规则挖掘和离群检测等[7]。分类的目的是学习将数据库中的数据项映射到给定类别的分类函数或分类模型(通常称为分类器)。构造分类器的方法很多,例如基于统计的方法、基于机器学习的方法以及人工神经网络方法等。通常需要输入一个训练样本来构造分类器,训练样本中的每条数据记录是由属性组成的特征向量,以及训练样本的类别标记。聚类是对无类别的样本进行聚集,然后形成不同的组,其中的一组数据对象称为一个簇。聚类的目的是属于同一簇的数据对象之间应该彼此相似,而属于不同簇的数据对象之间应该尽量不同。聚类不同于分类的是,在聚类之前,我们不知道要划分多少组,划分什么样的组。其目的是发现数据对象属性之间的关系。聚类技术发展迅速,广泛应用于统计学习、机器学习、生物学等领域。聚类分析是数据挖掘中的一个主要任务,代表算法有:k-means算法、k-modes算法、BIRCH算法、DBSCAN算法等。关联规则是用于挖掘数据对象之间的相关性。最初关联规则应用于购物篮分析,用
Spark集群环境下的分类数据离群检测及应用6图1.3Spark基本工作流程图Figure1.3TheworkflowofSpark用户通过客户端提交作业给集群,驱动器节点将开始初始化操作执行环境(包括任务调度,作业阶段调度,等等),作业被分为多个任务,然后主节点向集群管理器ClusterManager申请资源,集群管理器根据报告的资源使用情况分配资源,Executor负责执行具体的任务,最后释放集群资源直到任务执行完成。Spark可以运行在Hadoop的数据源上,并且很好地融入Hadoop生态系统。与MapReduce编程模型相比,Spark具有以下三个优点:1)Spark框架将计算结果缓存在主存中,提高了迭代操作之间共享数据的能力,减少了磁盘操作的数量。2)Spark框架中的所有数据操作都由弹性分布式数据集RDD提供支持。3)Spark使用事件驱动库启动任务,提高通信效率,同时保持较低的任务调度开销。Spark生态圈是由BerkeleyAMP实验室搭建的一个大数据应用平台,包含了很多组件,例如SparkCore、SparkSQL、SparkStreaming、MLLib和GraphX等。Spark生态系统涵盖了许多应用领域,如机器学习、数据挖掘和信息检索等。利用各种方便灵活的技术解决方案对大规模的不透明数据进行筛选,转化为有用信息,让人们可以更好地了解世界。如图1.4所示,Spark是一个集成了多个组件的一站式解决方案平台。其中SparkCore为Spark生态圈的核心,提供了一个内存计算框架。SparkStreaming用于实时应用程序、SparkSQL用于查询、MLlib或MLbase用于机器学习,GraphX用于图处理。从HDFS、HBase等读取数据,并使用MESOS、YARN和它自己的Standalone为资源管理器调度作业,从而完成Spark应用程序的计算。
【参考文献】:
期刊论文
[1]故障诊断及预测性维护在智能制造中的应用[J]. 祝旭. 自动化仪表. 2019(07)
[2]大数据挖掘及应用[J]. 王国胤,刘群,于洪,曾宪华. 科技与出版. 2018(04)
[3]工业大数据技术综述[J]. 王建民. 大数据. 2017(06)
[4]基于互信息的混合属性数据特征选择方法[J]. 刘海涛,魏汝祥,袁昊劼. 海军工程大学学报. 2016(04)
[5]从大数据到智能制造[J]. 张礼立. 中国工业评论. 2016(07)
[6]智能制造——“中国制造2025”的主攻方向[J]. 周济. 中国机械工程. 2015(17)
[7]基于混合粒子群算法的复杂机械产品装配质量控制阈优化方法[J]. 王小巧,刘明周,葛茂根,马靖,刘从虎. 机械工程学报. 2016(01)
[8]智能制造:全球趋势与中国战略[J]. 吕铁,韩娜. 人民论坛·学术前沿. 2015(11)
[9]Top-k Outlier Detection from Uncertain Data[J]. Salman Ahmed Shaikh,Hiroyuki Kitagawa. International Journal of Automation and Computing. 2014(02)
[10]基于粒子群BP神经网络的质量预测模型[J]. 徐兰,方志耕,刘思峰. 工业工程. 2012(04)
博士论文
[1]集群环境下的关联规则挖掘及应用[D]. 荀亚玲.太原科技大学 2017
硕士论文
[1]埃美柯阀门车间智能制造系统改造方法研究[D]. 徐伟峰.宁波大学 2017
[2]Hadoop平台下基于聚类和关联规则算法的工程车辆故障预测研究[D]. 武霞.太原科技大学 2015
[3]基于数据挖掘方法的冷轧表面质量缺陷分析[D]. 郭龙波.安徽工业大学 2012
[4]PG炼钢厂MES系统数据挖掘的设计与开发[D]. 张玉东.电子科技大学 2011
[5]基于模式识别和数据挖掘的铝工业生产节能降耗研究[D]. 娄小芳.国防科学技术大学 2010
[6]冷轧辊质量统计与分析系统—质量分析子系统的设计与实现[D]. 陈纲.东北大学 2010
[7]基于数据挖掘技术的矿用提升机故障预警系统的研究[D]. 王诗.北京邮电大学 2009
[8]汽车售后服务故障件管理及数据挖掘技术应用研究[D]. 罗洪波.西南交通大学 2008
[9]基于数据挖掘方法的热轧带钢表面质量缺陷分析[D]. 宋健.上海交通大学 2008
[10]金属镀层工件表面缺陷自动检测系统的研究[D]. 丁金明.天津大学 2004
本文编号:3490873
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3490873.html