基于K-Means-CNN的采砂大数据清洗算法研究
发布时间:2021-11-25 10:32
数据质量是进行数据挖掘的关键问题,高质量的数据带来的信息准确、全面,有助于人们做出正确的判断及决策,因此,做好数据清洗,提高数据质量是非常重要的。目前,已有学者提出许多数据清洗方法,它们解决了大部分领域的数据清洗问题,但是这些数据清洗方法在对缺失值、异常值、重复值的处理上还存在很多不足之处,主要表现在算法自身存在缺陷及数据问题分类不精确方面。而且,在河道采砂方面,目前还没有有效的数据清洗方法。河道采砂活动日益频繁,在采砂过程中,会产生各种与采砂密切相关的数据,这些数据包含:业务数据、设备数据、传感器数据、人工数据等,其中,传感器采集的河道信息数据对分析采砂业务有很大帮助,而一些备份、残缺数据等属于冗余、垃圾数据,在对数据进行分析应用时,会出现决策误导问题,因此,对这些数据进行清洗可以充分分析挖掘数据,引导人们做出正确决策。大数据、深度学习等技术已经成了数据处理的主流方向。其中,河道采砂关乎大众民生,解决采砂问题迫在眉睫。本文对已有的数据清洗方法加以改进,提出了基于聚类及卷积神经网络的采砂大数据清洗方法。本文所做主要工作如下:第一,研究数据源,对河道采砂数据加以了解,研究其源数据存在的主...
【文章来源】:华北水利水电大学河南省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
技术路线图
华北水利水电大学硕士学位论文8图2-1数据清洗流程Fig.2-1Datacleaningprocess2.2K-Means聚类2.2.1K-Means聚类算法K-Means算法是聚类算法中常用的一种,利用迭代求解过程,对数据进行聚类分析[69]。其算法思想是:把样本随机分成k组,每组选取一个样本作为中心对象,则这k个中心对象就是每组的初始聚类中心,然后计算每个样本与k个聚类中心的距离,将样本依次划分到与其距离最近的聚类中心所在的组中,每个聚类中心和分配给它们的样本便组成一个聚类。整个过程迭代进行,直到满足某个条件停止。其算法流程如下:(1)确定k值,将样本划到k个集合中。(2)从集合中选取k个样本,作为初始聚类中心。(3)对每个样本点,计算其与初始聚类中心的距离,若与某个聚类中心距离最小,则将其划分到这个聚类中心的集合中。(4)重新计算k个集合的聚类中心。(5)若新聚类中心与原聚类中心的距离小于某个阈值,表示新聚类中心的位置变化不大,集合趋于收敛,聚类算法终止。否则,迭代步骤3-5。K-Means聚类流程如图2-2所示:
2相关理论技术研究9图2-2K-MEANS算法流程图Fig.2-2K-MEANSalgorithmflowchart因此问题的关键是要保证算法的收敛。这里给出一个平方误差公式,来说明聚类后,可以使各分组内平均距离最校()2()1(,)||||kiciiJcx==(2-1)其中,J(c,)表示样本点到聚类中心的距离平方和。c(i)第i个样本的聚类中心。J(c,)越小,聚类效果越好。当J(c,)达到最小时,聚类终止。但是,要求解J(c,)的最小值,就要对样本的所有分组情况进行讨论,这是一个NP问题,K-Means算法选择贪心算法求解[70]。k值的选择是K-Means算法的关键步骤。在实际应用中,很难会事先知道样本的分布情况,通常通过多次运行K-Means算法求解最优聚类效果,这种方法非常耗费资源。对于k值得选取,目前主要有两种,第一种是结合层次聚类算法,得出大致的聚类数目,再使用K-Means聚类算法;第二种是系统演化法,它通过模拟拟热力学系统的分裂和合并,持续演化直至达到稳定的平衡状态来确定k
【参考文献】:
期刊论文
[1]基于ZigBee技术高压开关柜温度在线监测系统研究[J]. 胡凯波,许林波,夏志凌. 自动化与仪表. 2020(02)
[2]郓城黄河河道采砂需求分析与建议[J]. 吕玉宏. 治黄科技信息. 2020(01)
[3]基于EXCEL软件的“正态分布”教学[J]. 徐亚丹. 智库时代. 2019(48)
[4]采砂智能监管系统研究与应用[J]. 鄢煜川,许小华. 水资源研究. 2019(05)
[5]智慧水利大数据内涵特征、基础架构和标准体系研究[J]. 蒋云钟,冶运涛,赵红莉. 水利信息化. 2019(04)
[6]经验特征函数在偏正态分布中的应用[J]. 侯格格. 温州大学学报(自然科学版). 2019(03)
[7]大数据产业研究综述[J]. 戈黎华,郭浩,王璐璐,刘雅莉. 华北水利水电大学学报(社会科学版). 2019(03)
[8]开源工具支持的专利数据清洗流程研究[J]. 钟华,李艳梅,安新颖. 医学信息学杂志. 2019(05)
[9]基于智慧河长制的水利信息化服务平台建设研究[J]. 张源,周志敏,陆桂明. 浙江水利水电学院学报. 2019(01)
[10]管线流体含砂量非侵入式测量方法浅析[J]. 王钊,黄振宇,陈加鑫,王环环. 机电工程技术. 2018(12)
硕士论文
[1]智慧河道采砂监管平台系统的设计与实现[D]. 吕奕霖.华北水利水电大学 2019
[2]基于卷积神经网络的电信诈骗识别分类器的设计与实现[D]. 李爽.北京邮电大学 2019
[3]基于多数据源的水利数据获取及大数据服务[D]. 张驰恒一.西安理工大学 2018
[4]农业大数据清洗方法比较研究[D]. 钱学梁.中国农业科学院 2017
[5]长江河道采砂监测系统的设计与实现[D]. 孙琦.大连理工大学 2008
[6]基于聚类算法的数据清洗的研究与实现[D]. 张燕.华北电力大学(河北) 2008
[7]XML与数据清洗的研究[D]. 金煌.华中科技大学 2004
本文编号:3517959
【文章来源】:华北水利水电大学河南省
【文章页数】:74 页
【学位级别】:硕士
【部分图文】:
技术路线图
华北水利水电大学硕士学位论文8图2-1数据清洗流程Fig.2-1Datacleaningprocess2.2K-Means聚类2.2.1K-Means聚类算法K-Means算法是聚类算法中常用的一种,利用迭代求解过程,对数据进行聚类分析[69]。其算法思想是:把样本随机分成k组,每组选取一个样本作为中心对象,则这k个中心对象就是每组的初始聚类中心,然后计算每个样本与k个聚类中心的距离,将样本依次划分到与其距离最近的聚类中心所在的组中,每个聚类中心和分配给它们的样本便组成一个聚类。整个过程迭代进行,直到满足某个条件停止。其算法流程如下:(1)确定k值,将样本划到k个集合中。(2)从集合中选取k个样本,作为初始聚类中心。(3)对每个样本点,计算其与初始聚类中心的距离,若与某个聚类中心距离最小,则将其划分到这个聚类中心的集合中。(4)重新计算k个集合的聚类中心。(5)若新聚类中心与原聚类中心的距离小于某个阈值,表示新聚类中心的位置变化不大,集合趋于收敛,聚类算法终止。否则,迭代步骤3-5。K-Means聚类流程如图2-2所示:
2相关理论技术研究9图2-2K-MEANS算法流程图Fig.2-2K-MEANSalgorithmflowchart因此问题的关键是要保证算法的收敛。这里给出一个平方误差公式,来说明聚类后,可以使各分组内平均距离最校()2()1(,)||||kiciiJcx==(2-1)其中,J(c,)表示样本点到聚类中心的距离平方和。c(i)第i个样本的聚类中心。J(c,)越小,聚类效果越好。当J(c,)达到最小时,聚类终止。但是,要求解J(c,)的最小值,就要对样本的所有分组情况进行讨论,这是一个NP问题,K-Means算法选择贪心算法求解[70]。k值的选择是K-Means算法的关键步骤。在实际应用中,很难会事先知道样本的分布情况,通常通过多次运行K-Means算法求解最优聚类效果,这种方法非常耗费资源。对于k值得选取,目前主要有两种,第一种是结合层次聚类算法,得出大致的聚类数目,再使用K-Means聚类算法;第二种是系统演化法,它通过模拟拟热力学系统的分裂和合并,持续演化直至达到稳定的平衡状态来确定k
【参考文献】:
期刊论文
[1]基于ZigBee技术高压开关柜温度在线监测系统研究[J]. 胡凯波,许林波,夏志凌. 自动化与仪表. 2020(02)
[2]郓城黄河河道采砂需求分析与建议[J]. 吕玉宏. 治黄科技信息. 2020(01)
[3]基于EXCEL软件的“正态分布”教学[J]. 徐亚丹. 智库时代. 2019(48)
[4]采砂智能监管系统研究与应用[J]. 鄢煜川,许小华. 水资源研究. 2019(05)
[5]智慧水利大数据内涵特征、基础架构和标准体系研究[J]. 蒋云钟,冶运涛,赵红莉. 水利信息化. 2019(04)
[6]经验特征函数在偏正态分布中的应用[J]. 侯格格. 温州大学学报(自然科学版). 2019(03)
[7]大数据产业研究综述[J]. 戈黎华,郭浩,王璐璐,刘雅莉. 华北水利水电大学学报(社会科学版). 2019(03)
[8]开源工具支持的专利数据清洗流程研究[J]. 钟华,李艳梅,安新颖. 医学信息学杂志. 2019(05)
[9]基于智慧河长制的水利信息化服务平台建设研究[J]. 张源,周志敏,陆桂明. 浙江水利水电学院学报. 2019(01)
[10]管线流体含砂量非侵入式测量方法浅析[J]. 王钊,黄振宇,陈加鑫,王环环. 机电工程技术. 2018(12)
硕士论文
[1]智慧河道采砂监管平台系统的设计与实现[D]. 吕奕霖.华北水利水电大学 2019
[2]基于卷积神经网络的电信诈骗识别分类器的设计与实现[D]. 李爽.北京邮电大学 2019
[3]基于多数据源的水利数据获取及大数据服务[D]. 张驰恒一.西安理工大学 2018
[4]农业大数据清洗方法比较研究[D]. 钱学梁.中国农业科学院 2017
[5]长江河道采砂监测系统的设计与实现[D]. 孙琦.大连理工大学 2008
[6]基于聚类算法的数据清洗的研究与实现[D]. 张燕.华北电力大学(河北) 2008
[7]XML与数据清洗的研究[D]. 金煌.华中科技大学 2004
本文编号:3517959
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3517959.html