基于K-Means-CNN的采砂大数据清洗算法研究

发布时间：2021-11-25 10:32

　　数据质量是进行数据挖掘的关键问题,高质量的数据带来的信息准确、全面,有助于人们做出正确的判断及决策,因此,做好数据清洗,提高数据质量是非常重要的。目前,已有学者提出许多数据清洗方法,它们解决了大部分领域的数据清洗问题,但是这些数据清洗方法在对缺失值、异常值、重复值的处理上还存在很多不足之处,主要表现在算法自身存在缺陷及数据问题分类不精确方面。而且,在河道采砂方面,目前还没有有效的数据清洗方法。河道采砂活动日益频繁,在采砂过程中,会产生各种与采砂密切相关的数据,这些数据包含:业务数据、设备数据、传感器数据、人工数据等,其中,传感器采集的河道信息数据对分析采砂业务有很大帮助,而一些备份、残缺数据等属于冗余、垃圾数据,在对数据进行分析应用时,会出现决策误导问题,因此,对这些数据进行清洗可以充分分析挖掘数据,引导人们做出正确决策。大数据、深度学习等技术已经成了数据处理的主流方向。其中,河道采砂关乎大众民生,解决采砂问题迫在眉睫。本文对已有的数据清洗方法加以改进,提出了基于聚类及卷积神经网络的采砂大数据清洗方法。本文所做主要工作如下:第一,研究数据源,对河道采砂数据加以了解,研究其源数据存在的主...

【文章来源】：华北水利水电大学河南省

【文章页数】：74 页

【学位级别】：硕士

【部分图文】：

技术路线图

流程图,数据清洗,流程,聚类中心

华北水利水电大学硕士学位论文8图2-1数据清洗流程Fig.2-1Datacleaningprocess2.2K-Means聚类2.2.1K-Means聚类算法K-Means算法是聚类算法中常用的一种，利用迭代求解过程，对数据进行聚类分析[69]。其算法思想是：把样本随机分成k组，每组选取一个样本作为中心对象，则这k个中心对象就是每组的初始聚类中心，然后计算每个样本与k个聚类中心的距离，将样本依次划分到与其距离最近的聚类中心所在的组中，每个聚类中心和分配给它们的样本便组成一个聚类。整个过程迭代进行，直到满足某个条件停止。其算法流程如下：（1）确定k值，将样本划到k个集合中。（2）从集合中选取k个样本，作为初始聚类中心。（3）对每个样本点，计算其与初始聚类中心的距离，若与某个聚类中心距离最小，则将其划分到这个聚类中心的集合中。（4）重新计算k个集合的聚类中心。（5）若新聚类中心与原聚类中心的距离小于某个阈值，表示新聚类中心的位置变化不大，集合趋于收敛，聚类算法终止。否则，迭代步骤3-5。K-Means聚类流程如图2-2所示：

流程图,算法,流程图,聚类

2相关理论技术研究9图2-2K-MEANS算法流程图Fig.2-2K-MEANSalgorithmflowchart因此问题的关键是要保证算法的收敛。这里给出一个平方误差公式，来说明聚类后，可以使各分组内平均距离最校()2()1(,)||||kiciiJcx==（2-1）其中，J(c,)表示样本点到聚类中心的距离平方和。c(i)第i个样本的聚类中心。J(c,)越小，聚类效果越好。当J(c,)达到最小时，聚类终止。但是，要求解J(c,)的最小值，就要对样本的所有分组情况进行讨论，这是一个NP问题，K-Means算法选择贪心算法求解[70]。k值的选择是K-Means算法的关键步骤。在实际应用中，很难会事先知道样本的分布情况，通常通过多次运行K-Means算法求解最优聚类效果，这种方法非常耗费资源。对于k值得选取，目前主要有两种，第一种是结合层次聚类算法，得出大致的聚类数目，再使用K-Means聚类算法；第二种是系统演化法，它通过模拟拟热力学系统的分裂和合并，持续演化直至达到稳定的平衡状态来确定k

【参考文献】：
期刊论文
[1]基于ZigBee技术高压开关柜温度在线监测系统研究[J]. 胡凯波,许林波,夏志凌.  自动化与仪表. 2020(02)
[2]郓城黄河河道采砂需求分析与建议[J]. 吕玉宏.  治黄科技信息. 2020(01)
[3]基于EXCEL软件的“正态分布”教学[J]. 徐亚丹.  智库时代. 2019(48)
[4]采砂智能监管系统研究与应用[J]. 鄢煜川,许小华.  水资源研究. 2019(05)
[5]智慧水利大数据内涵特征、基础架构和标准体系研究[J]. 蒋云钟,冶运涛,赵红莉.  水利信息化. 2019(04)
[6]经验特征函数在偏正态分布中的应用[J]. 侯格格.  温州大学学报(自然科学版). 2019(03)
[7]大数据产业研究综述[J]. 戈黎华,郭浩,王璐璐,刘雅莉.  华北水利水电大学学报(社会科学版). 2019(03)
[8]开源工具支持的专利数据清洗流程研究[J]. 钟华,李艳梅,安新颖.  医学信息学杂志. 2019(05)
[9]基于智慧河长制的水利信息化服务平台建设研究[J]. 张源,周志敏,陆桂明.  浙江水利水电学院学报. 2019(01)
[10]管线流体含砂量非侵入式测量方法浅析[J]. 王钊,黄振宇,陈加鑫,王环环.  机电工程技术. 2018(12)

硕士论文
[1]智慧河道采砂监管平台系统的设计与实现[D]. 吕奕霖.华北水利水电大学 2019
[2]基于卷积神经网络的电信诈骗识别分类器的设计与实现[D]. 李爽.北京邮电大学 2019
[3]基于多数据源的水利数据获取及大数据服务[D]. 张驰恒一.西安理工大学 2018
[4]农业大数据清洗方法比较研究[D]. 钱学梁.中国农业科学院 2017
[5]长江河道采砂监测系统的设计与实现[D]. 孙琦.大连理工大学 2008
[6]基于聚类算法的数据清洗的研究与实现[D]. 张燕.华北电力大学（河北） 2008
[7]XML与数据清洗的研究[D]. 金煌.华中科技大学 2004

本文编号：3517959

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3517959.html

上一篇：基于比面积调控与遗传算法的潜水排污泵水力性能多目标优化研究
下一篇：基于脑电的情绪识别研究与系统开发

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|