基于对抗生成网络的随机缺失数据填补及其效果研究
发布时间:2021-03-28 14:50
数据的缺失是统计分析中不可避免的问题,它与异常值处理共同组成数据预处理的两大块内容。数据的缺失不仅会导致样本信息的缩减,还会使得很多统计学习方法无法使用。统计分析的结果取决于数据质量的好坏,如果不能对缺失数据进行恰当的处理,那么最终的分析结果也很难具有代表性。对于缺失数据的处理思路主要分为删除和填补两种,由于删除会导致样本信息的减少,故一般采用填补策略。随着大数据时代到来,数据维度的增大也带来了大量缺失数据出现的情况,如何对缺失数据进行准确且快速的填补成为了一个亟待解决的问题。GAN(对抗生成网络)近年来在深度学习领域的研究越来越多,其在样本生成方面有独到之处。本文在国内外研究的基础上,基于缺失数据填补和图像修复问题的相似性,将GAN的理论框架应用至缺失数据填补问题,设计了适用于该问题的网络结构,并将该方法与多重插补法、缺失森林法和EM法对比,分析各种方法的适用性。在模拟部分,本文通过计算机生成复杂分布的随机数,按照不同的观测数、变量数、缺失比例的组合分别用上述3种方法和GAN方法对同一缺失数据集进行重复填补,对比其填补精度、填补效果和填补速度,最后得出结论:在同一情况下GAN方法填补...
【文章来源】:上海师范大学上海市
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
原始GAN网络结构图
上海师范大学硕士学位论文第3章基于GAN填补方法的模拟与结果分析12第3章基于GAN填补方法的模拟与结果分析3.1网络结构介绍GAN网络的原始结构如下图所示:图3-1原始GAN网络结构图本文根据缺失数据的机制,参照JinsungYoon[32]2018年的论文《GAIN:MissingDataImputationusingGenerativeAdversarialNets》和DeepakPathak[33]2016年的论文《ContextEncoders:FeatureLearningbyInpainting》,设计本文网络整体结构如下:图3-2本文GAN网络结构图其中,生成器的输入由噪声数据集和提示矩阵组成,缺失的部分填补上服从
上海师范大学硕士学位论文第3章基于GAN填补方法的模拟与结果分析16的函数,计算快捷:′()=()(1())公式(3-4)但是作为激活函数,它有一个很大的缺点,就是当输入的值很大或很小时,它的导数都近似0,这就会产生梯度消失问题。如上一小节所说,在GAN中这个问题尤为突出。Sigmoid函数与导函数图如下:图3-3Logit函数及其导函数图像故本文目标是找到一个函数,其具有类似Sigmoid函数的形状,并且在其图像中间部分近似线性。作为其的替代,本文选用函数图像与之非常相似的正态分布的分布函数与密度函数(连续型分布的分布函数均可),该正态分布服从于均值为0,方差为2的正态分布,随着2的变大,分布函数越加平缓,随之它的密度函数也更加平缓,密度函数的两端趋近0的速度更慢。如下图所示:
【参考文献】:
期刊论文
[1]生成对抗网络GAN综述[J]. 程显毅,谢璐,朱建新,胡彬,施佺. 计算机科学. 2019(03)
[2]基于卷积神经网络的缺失数据填充方法[J]. 张网娟,许国艳,李敏佳,朱帅. 微电子学与计算机. 2019(03)
[3]采用改进生成式对抗网络的电力系统量测缺失数据重建方法[J]. 王守相,陈海文,潘志新,王建明. 中国电机工程学报. 2019(01)
[4]ReLU激活函数优化研究[J]. 蒋昂波,王维维. 传感器与微系统. 2018(02)
[5]数据缺失及其处理方法综述[J]. 晔沙. 电子测试. 2017(18)
[6]针对机器学习中残缺数据的近似补全方法[J]. 曹卫权,褚衍杰,李显. 西安交通大学学报. 2017(10)
[7]基于随机森林模型的成分数据缺失值填补法[J]. 张晓琴,程誉莹. 应用概率统计. 2017(01)
[8]基于深度学习的不完整大数据填充算法[J]. 卜范玉,陈志奎,张清辰. 微电子学与计算机. 2014(12)
[9]基于随机森林模型的分类数据缺失值插补[J]. 孟杰,李春林. 统计与信息论坛. 2014(09)
[10]基于不完备数据聚类的缺失数据填补方法[J]. 武森,冯小东,单志广. 计算机学报. 2012(08)
本文编号:3105747
【文章来源】:上海师范大学上海市
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
原始GAN网络结构图
上海师范大学硕士学位论文第3章基于GAN填补方法的模拟与结果分析12第3章基于GAN填补方法的模拟与结果分析3.1网络结构介绍GAN网络的原始结构如下图所示:图3-1原始GAN网络结构图本文根据缺失数据的机制,参照JinsungYoon[32]2018年的论文《GAIN:MissingDataImputationusingGenerativeAdversarialNets》和DeepakPathak[33]2016年的论文《ContextEncoders:FeatureLearningbyInpainting》,设计本文网络整体结构如下:图3-2本文GAN网络结构图其中,生成器的输入由噪声数据集和提示矩阵组成,缺失的部分填补上服从
上海师范大学硕士学位论文第3章基于GAN填补方法的模拟与结果分析16的函数,计算快捷:′()=()(1())公式(3-4)但是作为激活函数,它有一个很大的缺点,就是当输入的值很大或很小时,它的导数都近似0,这就会产生梯度消失问题。如上一小节所说,在GAN中这个问题尤为突出。Sigmoid函数与导函数图如下:图3-3Logit函数及其导函数图像故本文目标是找到一个函数,其具有类似Sigmoid函数的形状,并且在其图像中间部分近似线性。作为其的替代,本文选用函数图像与之非常相似的正态分布的分布函数与密度函数(连续型分布的分布函数均可),该正态分布服从于均值为0,方差为2的正态分布,随着2的变大,分布函数越加平缓,随之它的密度函数也更加平缓,密度函数的两端趋近0的速度更慢。如下图所示:
【参考文献】:
期刊论文
[1]生成对抗网络GAN综述[J]. 程显毅,谢璐,朱建新,胡彬,施佺. 计算机科学. 2019(03)
[2]基于卷积神经网络的缺失数据填充方法[J]. 张网娟,许国艳,李敏佳,朱帅. 微电子学与计算机. 2019(03)
[3]采用改进生成式对抗网络的电力系统量测缺失数据重建方法[J]. 王守相,陈海文,潘志新,王建明. 中国电机工程学报. 2019(01)
[4]ReLU激活函数优化研究[J]. 蒋昂波,王维维. 传感器与微系统. 2018(02)
[5]数据缺失及其处理方法综述[J]. 晔沙. 电子测试. 2017(18)
[6]针对机器学习中残缺数据的近似补全方法[J]. 曹卫权,褚衍杰,李显. 西安交通大学学报. 2017(10)
[7]基于随机森林模型的成分数据缺失值填补法[J]. 张晓琴,程誉莹. 应用概率统计. 2017(01)
[8]基于深度学习的不完整大数据填充算法[J]. 卜范玉,陈志奎,张清辰. 微电子学与计算机. 2014(12)
[9]基于随机森林模型的分类数据缺失值插补[J]. 孟杰,李春林. 统计与信息论坛. 2014(09)
[10]基于不完备数据聚类的缺失数据填补方法[J]. 武森,冯小东,单志广. 计算机学报. 2012(08)
本文编号:3105747
本文链接:https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/3105747.html