当前位置:主页 > 科技论文 > 水利工程论文 >

基于立体感知的智慧水务大数据清洗算法研究

发布时间:2020-07-24 16:56
【摘要】:数据在人类生活中占据着十分重要的地位,而水务数据由于多变量、数据种类繁杂、相关性强等问题在采集出现脏数据时变得难以处理,给水务行业进行决策性分析带来了严峻的挑战,因此对水务行业数据进行数据清洗势在必行。利用数据挖掘技术来进行数据清洗属于数据挖掘领域的前沿问题,近年来,随着机器学习和统计学习学术方向上的进步,在各领域中应用数据清洗技术得到了较大进展,但这些方法在水务数据空间、时间、数值特征上的清洗方法依然有待提高和突破。本文在水务数据空间、时间特征属性的基础上,以空间、时间异常值检测算法为切入点,进而研究基于立体感知的智慧水务大数据清洗算法。主要工作如下:(1)基于空间特性的异常值算法研究针对水务数据空间特征的业务属性和对象属性以及多变量特点,本文提出了利用KNN求出各点的临近函数点,再利用流域作为权值调整下的比较函数和适合多变量的马氏距离作为阈值函数,对水务数据中空间特征属性进行异常值检测。实验结果验证了本算法在水务数据异常值检测中良好的准确性和有效性,为进一步研究基于立体感知的智慧水务大数据清洗模型奠定了基础。(2)基于时间特性的异常值算法研究针对水务数据时间序列特征和多变量特点,本文提出了利用FCM聚类方法和两种模糊积分方法对时间序列进行降维,将三种方法进行横向对比,找出泛化能力较好的针对水务数据的降维模型,通过改进的隐马尔科夫模型将时间序列数据设置为可见的状态序列,应用维特比算法来预测最可能的隐藏状态序列(正常或异常)进行异常值检测,能有效的提升异常值检测的准确性,为进一步研究基于立体感知的智慧水务大数据清洗模型奠定了基础。(3)基于立体感知的智慧水务大数据清洗算法研究在水务数据空间与时间特性异常值检测研究的基础上,加上应用改进的TwoStep聚类算法的通用数值属性异常值检测方法与利用改进的多层感知器的人工神经网络空缺值填补方法,提出了一种基于立体感知的智慧水务大数据清洗模型。首先,对需要清洗的水务数据进行数据预处理,接着根据数据中的属性特征分别利用通用异常值检测算法、空间异常值检测算法和时间异常值检测算法进行异常值检测,然后对异常值检测完数据中的空缺值进行填补,进而得到干净的水务数据。该模型根据水务数据特点、水务脏数据特征和数据清洗流程设计,能够有效的对水务领域中出现的脏数据进行清洗。实验结果显示,基于立体感知的智慧水务大数据清洗模型异常值检测具有良好的准确性和有效性,空缺值填补效果也具有良好的准确性和泛化能力,说明本文方法在数据清洗中的可行性和有效性。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13;TV21-39
【图文】:

模型图,数据清洗,模型


图 2-1 数据清洗模型Figure 2-1 Data cleaning model据清洗的基本模型如图 2-1 所示,由于数据中出现了数值的错误例如入出错、传感器失灵等产生了不合法值、空值等问题的脏数据,采用略/规则如数据统计、数据挖掘等方法对脏数据进行异常检验和空缺据达到满足数据质量要求的数据,为后面进行数据挖掘和决策性分的数据。常情况下,数据清洗的流程包含以下五个步骤:1) 数据分析:数据分析是数据清洗的条件和基础,经过分析,可以到数据集中存在的错误问题种类。2) 定义数据清洗转换规则:依据所分析的数据结果,根据“脏数据产生和特点,制定清洗“脏数据”的清洗算法规则。3) 验证:验证数据清洗转换规则的正确性,当情况不符合数据清洗量要求时,要改进清洗规则或调整模型参数,直到得到满足数据任务要求的数据清洗规则和模型。

数据清洗,水务


图 2-2 数据清洗一般流程Figure 2-2 Data cleaning general process与分析行数据清洗,需要对水务系统数据特点等进行全面的分析、整理、了案。北京市水务数据业务分类如下排水、节水、水文、郊区水务、水,例如供水和郊区水务和水资源之包括了所有业务类型的水务数据。

数据,基础类,管理类,水务


图 2-3 水务数据业务分类Figure 2-3 Water data classification业务数据中可以分为三大数据:监测类数据,基础类数据、管理类数据。监测类数据主要包括水质监测数据、供排节水量、水位监测数据等等,基础类例如污水处理厂的基础工艺,基础设施、传感器参数等等,管理类数据主要为河流流域之间各数据情况信息数据。

【相似文献】

相关期刊论文 前10条

1 李W氈

本文编号:2769138


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shuiwenshuili/2769138.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9ecb9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com