基于生成式对抗网络的缺失数据填充与预测方法研究
发布时间:2021-01-30 13:23
信息时代产生了海量的数据,这些数据中蕴含着许多有价值的信息,但也存在各种数据质量问题。由于在数据的获取、记录和保存的过程中,经常会发生部分数据缺失的现象,这些丢失了部分数据的不完备数据降低了数据的利用价值,所以它既给后续数据挖掘的过程带来了麻烦,同时也影响着数据用于进行指导决策的质量。因此如何有效处理不完备数据并且基于这些不完备数据进行高质量的决策研究有重要的现实意义。生成式对抗网络是近年来深度学习的热点研究方向,具有拟合高维数据分布的能力,因此本文采用该网络来学习缺失数据到完整数据分布的映射。本文主要对生成式对抗网络、高维度数据和高缺失率的不完备数据集的填充与预测方法进行了较深入的分析和研究,其主要工作和创新点如下:(1)研究了各种处理不完备数据的常用算法的适用条件和局限性。首先分析了不完备数据产生的原因、缺失机制和缺失模式,其次研究了大样本量下的数据缺失问题,然后分析了几种依托于深度学习技术的数据填充方法,最后分析发现大部分填充算法并未有效利用标签数据,也不能对大数量和高缺失率下的不完备数据集进行有效填充。基于此,本文提出了采用生成式对抗网络来解决以上问题的思想。(2)提出了一种缺...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
卷积操作示意图
图 2-2 池化操作示意图反卷积是由 Zeiler 在 2010 年提出的[53],最初目的在于对卷用于图像分割与图像生成的深度网络中。反卷积可以看作积操作得到的特征图维度降低,反卷积可以增加输出的图图像。和反卷积是深度学习技术中常用的运算,主要用于特征的训练的目标,损失函数这一概念并非深度学习独有,在机在损失函数这一概念。它是衡量模型预测结果与实际结果果的数值化表达方式之一,通过最小化损失函数,能够使的分类问题,通常以准确率来评估模型的表现;训练过程相对于准确率来说,以交叉熵为代表的损失函数能够更好的分类和回归问题,可以使用交叉熵或均方误差作为损失
像更具真实性。最初论文中使用该网络生成 28*28 像素的手写数字CGAN(Deep Convolutional Generative Adversarial Nets)[60]采用卷积神够稳定生成 64*64 与 128*128 像素图片,在之后的发展中,新的网高像素的图片进行生成,2017 年英伟达[61]提出对生成器逐层训练的024 的高清图片;这充分说明了生成式对抗网络对于高维度数据强对抗网络的核心思想在于博弈。它由生成器(记为 G)与判别器(记,生成器用于将从噪声分布中采样得到的数据映射到样本数据空间所服从的分布;判别器则对生成器生成的样本与真实的样本数据加收样本来自真实数据的概率,来判断输入的样本是生成器产生的数模型交替迭代训练,最终生成器产生的样本将越来越接近数据集情况下,生成器与判别器均采用神经网络实现,生成式对抗网络训
【参考文献】:
期刊论文
[1]深度卷积神经网络的发展及其在计算机视觉领域的应用[J]. 张顺,龚怡宏,王进军. 计算机学报. 2019(03)
[2]大数据可用性的研究进展[J]. 李建中,王宏志,高宏. 软件学报. 2016(07)
[3]基于深度学习的不完整大数据填充算法[J]. 卜范玉,陈志奎,张清辰. 微电子学与计算机. 2014(12)
[4]半监督学习方法[J]. 刘建伟,刘媛,罗雄麟. 计算机学报. 2015(08)
[5]关于数据缺失机制的检验方法探讨[J]. 孙婕,金勇进,戴明锋. 数学的实践与认识. 2013(12)
[6]一种基于支持向量机的缺失值填补算法[J]. 张婵. 计算机应用与软件. 2013(05)
[7]调查研究中数据缺失的机制及处理方法[J]. 周艺彪,姜庆五,赵根明. 中国卫生统计. 2005(05)
[8]数据挖掘综述[J]. 钟晓,马少平,张钹,俞瑞钊. 模式识别与人工智能. 2001(01)
[9]调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响[J]. 金勇进. 数理统计与管理. 2001(01)
硕士论文
[1]数据集缺失数据恢复算法研究[D]. 朱建斐.西安电子科技大学 2015
[2]缺失值填充的若干问题研究[D]. 朱晓峰.广西师范大学 2007
[3]数据预处理算法的研究与应用[D]. 李晓菲.西南交通大学 2006
本文编号:3008979
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
卷积操作示意图
图 2-2 池化操作示意图反卷积是由 Zeiler 在 2010 年提出的[53],最初目的在于对卷用于图像分割与图像生成的深度网络中。反卷积可以看作积操作得到的特征图维度降低,反卷积可以增加输出的图图像。和反卷积是深度学习技术中常用的运算,主要用于特征的训练的目标,损失函数这一概念并非深度学习独有,在机在损失函数这一概念。它是衡量模型预测结果与实际结果果的数值化表达方式之一,通过最小化损失函数,能够使的分类问题,通常以准确率来评估模型的表现;训练过程相对于准确率来说,以交叉熵为代表的损失函数能够更好的分类和回归问题,可以使用交叉熵或均方误差作为损失
像更具真实性。最初论文中使用该网络生成 28*28 像素的手写数字CGAN(Deep Convolutional Generative Adversarial Nets)[60]采用卷积神够稳定生成 64*64 与 128*128 像素图片,在之后的发展中,新的网高像素的图片进行生成,2017 年英伟达[61]提出对生成器逐层训练的024 的高清图片;这充分说明了生成式对抗网络对于高维度数据强对抗网络的核心思想在于博弈。它由生成器(记为 G)与判别器(记,生成器用于将从噪声分布中采样得到的数据映射到样本数据空间所服从的分布;判别器则对生成器生成的样本与真实的样本数据加收样本来自真实数据的概率,来判断输入的样本是生成器产生的数模型交替迭代训练,最终生成器产生的样本将越来越接近数据集情况下,生成器与判别器均采用神经网络实现,生成式对抗网络训
【参考文献】:
期刊论文
[1]深度卷积神经网络的发展及其在计算机视觉领域的应用[J]. 张顺,龚怡宏,王进军. 计算机学报. 2019(03)
[2]大数据可用性的研究进展[J]. 李建中,王宏志,高宏. 软件学报. 2016(07)
[3]基于深度学习的不完整大数据填充算法[J]. 卜范玉,陈志奎,张清辰. 微电子学与计算机. 2014(12)
[4]半监督学习方法[J]. 刘建伟,刘媛,罗雄麟. 计算机学报. 2015(08)
[5]关于数据缺失机制的检验方法探讨[J]. 孙婕,金勇进,戴明锋. 数学的实践与认识. 2013(12)
[6]一种基于支持向量机的缺失值填补算法[J]. 张婵. 计算机应用与软件. 2013(05)
[7]调查研究中数据缺失的机制及处理方法[J]. 周艺彪,姜庆五,赵根明. 中国卫生统计. 2005(05)
[8]数据挖掘综述[J]. 钟晓,马少平,张钹,俞瑞钊. 模式识别与人工智能. 2001(01)
[9]调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响[J]. 金勇进. 数理统计与管理. 2001(01)
硕士论文
[1]数据集缺失数据恢复算法研究[D]. 朱建斐.西安电子科技大学 2015
[2]缺失值填充的若干问题研究[D]. 朱晓峰.广西师范大学 2007
[3]数据预处理算法的研究与应用[D]. 李晓菲.西南交通大学 2006
本文编号:3008979
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3008979.html