当前位置:主页 > 管理论文 > 工程管理论文 >

数据清洗技术在尾矿库监测系统中的应用研究

发布时间:2020-07-25 07:35
【摘要】:近年来,随着矿产企业信息化技术的建设,在企业信息系统中收集了大量的基础数据,而不论是利用这些数据进行数据挖掘还是决策分析,都具有极其重要的价值。由于数据的不准确性,会产生异常或缺失数据,严重影响数据质量。因此,使用数据清洗技术来提高数据质量,优化数据源是不可或缺的步骤。而尾矿库监测系统首先利用传感器设备来采集数据,然后对数据进行分析研究,达到对尾矿库的安全监测。由于尾矿库受外部环境的影响,其设备采集的数据会产生异常和缺失,对此首先应该检测出其中的异常数据,然后根据可观测数据前后的变化趋势,来修正并填补缺失数据,从而提高数据质量。本文的主要研究工作如下:(1)从感知数据的时空相关性出发,通过对尾矿库系统中各个设备已采集的数据进行研究,根据数据的前后变化趋势,从模式上将尾矿库中的异常缺失数据进行分类,分为“单独异常点”和“异常序列”与“单个缺失点”和“缺失序列”两大类。(2)通过对历年尾矿库系统中的异常数据的相似特征和表现形式的研究,本文提出了一种近邻差值跳跃异常检测算法,该算法汲取了统计学中数据取值区间和数据变化趋势的思想。使用近邻差值的浮动值对各种传感设备采集的数据是否异常作出判断,归类不同类别的异常数据。通过实验,将提出的算法与常用的统计学方法和基于邻域密度的异常检测算法作对比分析。(3)对不同类别的异常数据和缺失的数据进行填补,通过对数据的特点研究,本文提出了一种基于权重的近邻算法填补数据。该算法汲取了近邻算法的思想,并在计算距离和求值时,利用尾矿库系统中可观测数据的特点进行改进。将新提出的基于权重的近邻填补算法与常用的线性插值法和传统的近邻算法作对比实验进行分析。(4)实验选取了最近尾矿库中各类设备采集的数据。首先,利用本文提出的异常检测算法与常用的统计学方法和基于邻域密度的异常检测算法进行对比实验。分析实验结果后发现,使用近邻差值跳跃算法在尾矿库已采集数据上查找异常数据的准确率和召回率比统计学方法和邻域密度算法更加显著;然后,在查找异常值以后,利用基于权重的近邻算法与传统的近邻填补算法和基于邻域密度填补算法,进行填补对比实验,实验结果表明,改进后的基于权重的近邻算法在填补尾矿库异常和缺失数据上具有更高的拟合度,适用性更好。
【学位授予单位】:西安工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TD926.4;TB490
【图文】:

单点


根据尾矿库中数据的变化趋势和浮动值原理,本文将数据变化的趋势抽象为以下三种类型,分别为单点变化,序列变化,持续变化,分别如图 3.3、图 3.4 和图 3.5 所示。然后根据这种数据变化的跳跃量与浮动值之间的大小关系去判断数据是否处于异常状态。其中图中的横坐标轴是采集时间,刻度为采集周期,纵坐标轴是数据的数值,单位为 mm,图中没有明确纵坐标的数据是因为数据有正有负,同时数值有大有小,只用来表示抽象模型和变化趋势,与实际数据无关。并且图中的线段以及转折点都是抽象的,线段表示数据在一段时间内的变化很小,近似于稳定的波形变化,转折点为数据在某一时刻数据发生急剧变化。图 3.2 正常数据的浮动范围

浮动范围,正常数


数据的变化趋势和浮动值原理,本文将数据变化的趋点变化,序列变化,持续变化,分别如图 3.3、图 3.4变化的跳跃量与浮动值之间的大小关系去判断数据是轴是采集时间,刻度为采集周期,纵坐标轴是数据的数标的数据是因为数据有正有负,同时数值有大有小,与实际数据无关。并且图中的线段以及转折点都是抽的变化很小,近似于稳定的波形变化,转折点为数据图 3.2 正常数据的浮动范围

数据清洗技术在尾矿库监测系统中的应用研究


持续变化

【相似文献】

相关期刊论文 前10条

1 李W氈

本文编号:2769523


资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/gongchengguanli/2769523.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c83e8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com