深度子空间聚类算法研究
发布时间:2021-10-23 12:12
传统聚类算法无法有效处理高维数据并且具有较高的计算复杂度,基于这两个问题提出了子空间聚类算法,但是子空间聚类算法在处理非线性数据上效果具有限制,尽管已经引入了内核技巧,但是并没有足够的理由确定内核相对应的隐式特征空间是适合子空间聚类的。由于深度学习的发展,基于深度神经网络的聚类方法由于具有很高的表示能力,能够有效进行特征处理,本文对深度子空间聚类算法进行了研究,具体研究内容如下:(1)研究了基于去噪自编码器的深度子空间聚类算法。我们引入去噪自编码器使学习到的表示更有鲁棒性,通过网络分层堆叠的非线性变换学习潜在空间,在潜在空间用自表示层学习用于子空间聚类的相似度矩阵,之后采用谱聚类完成聚类。所提出的方法由于非线性表示能力而具有更好的泛化性能,特别适用于具有显着相关性的高维数据的情况,实验结果证明,该模型对于子空间聚类具有有效性。(2)研究了一种改进的深度子空间聚类算法。该方法基于深度子空间聚类网络(DSC),并针对其特征损失过大从而影响聚类结果问题进行改进,有效改善特征提取问题。该模型在卷积自编码器的编码器与解码器部分分别加入完全连接层作为下采样层与上采样层,使之能进一步整合有效特征以及...
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图1-1?DACEC模型结构??Figure?1-1?DACEC’s?model?structure??
?Jpli?士.???^练??*?*??图2-1?_于倉编码器的聚类结构??Figure?2-1?Clustering?structure?based?on?auto-encoder??(5)?GAN&VAE??生成对抗网络(GAN)和变分自动编码器(VAE)是深度生成学习的最强大??框架。生成对抗网络的目标是在生成器和鉴别器之间达到平衡,而变分ft动编码??器则试图最大化对数似然的下界。目前已经为GAN和VAE开发了系列模型??扩展,此外,它们还已经应用于处理聚类任务。??生成对抗网络是近年来流行的一种深度生成模型,GAN框架在神经网络之??时建立了最小-最大对抗博弈:一个生成网络G和一个判别网络D。该生成网络??尝试将样本z从先前分布p〇)映射到数据雙间》而判别网络尝试根据数据分布计??算输入是真实样本而不是生成网络生产数据的概率,优化目标如下面公式(2-3)??所示,可以交替使用SGD优化生成器G和判别器GAN提供了一种对抗性的??解决方案,可以将数据或其表示的分布与任意先验分布进行匹配。近年来,已经??提出了许多塞于GAN的聚类算法,其中一些算法特定于聚类任务,而另一些仅??以聚类为特例。基于GAN的深度聚类算法具有GAN相同的问题,例如难以收??敛和模式崩溃。??minmaxEx^Pdata[logD(x)]?+?Ez^p(z)[log(l?-?D(G(z)))]?(2-3)??变分自动编码器可以看成是ft动编码器的变体,它要求自动编码器的潜在部??分必须遵循_种预定义的分布,它将变分贝叶斯方法与神经网络的灵活性和可扩??展性结合在一起,使得神经网络能适应条件后验,可以通过随机梯度下降和标准?
?3基于去噪_编码器的锌度于g间聚类:算袪???如下面图3-1所示,其中x是原始数据,2是破坏以后的数据,/是编码部分,设是??解码部分,L是损失函数。??★?????L(x,xr)??图3-1去噪自编码器??Figure?3-1?Denoising?Autoencoder??如前所述,通过最小化训练集上的平均重建误差LH(X,Z)?=H(SX||SZ)来训??练参数,使Z尽可能接近未损坏的输入X,降噪自编码器最关键的区别在于z现在??是无的确定函数,而不是x的,因此是x随机映射的结果。根据如下面公式(3-13)??所示的来定义联合分布,其中,Hu共v时,心〇)的值为〇,園此r是尤的确定函??数,qQ〇,兄r)的参数为0,通过随机梯度下降最小化的目标函数变为下面公式??(3-14)所示。??q°(X,X,Y)?=?q°(X)qD(X\X)8fgm(Y)?(3-13)??arg?min?Eq〇{x^?[LH{X,?ge>(fg(X)))]?(3-14)??因此从随机梯度下降算法的角度来看,除了从训练集中选取输入样本外,降??噪自动编码器还将生成一个随机的损坏样本,并采取梯度步骤从损坏样本中重建??未损坏样本,这种方式与基本的自动编码器不同,因此需要消除了d'<d的约束??或需要专门进行正则化来避免这种琐碎解决方案的约束。??3.?1.3逐层初始化和微调??墓本的自动编码器已被用作构建和训练深度网络,第k眉的输入用作第k+1??层的输出,训练第k+1层的时候前面k层都已训练过,在训练了几层之后,将参??数用作针对监督训练标准进行优化的网络的初始化。已经证明,这种贪婪的逐层??过程比深度网络的随机初始化产
【参考文献】:
期刊论文
[1]深度学习和深度强化学习综述[J]. 赵德宇. 中国新通信. 2019(15)
[2]自编码神经网络理论及应用综述[J]. 袁非牛,章琳,史劲亭,夏雪,李钢. 计算机学报. 2019(01)
[3]深度卷积自编码图像聚类算法[J]. 谢娟英,侯琦,曹嘉文. 计算机科学与探索. 2019(04)
本文编号:3453163
【文章来源】:中国矿业大学江苏省 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
图1-1?DACEC模型结构??Figure?1-1?DACEC’s?model?structure??
?Jpli?士.???^练??*?*??图2-1?_于倉编码器的聚类结构??Figure?2-1?Clustering?structure?based?on?auto-encoder??(5)?GAN&VAE??生成对抗网络(GAN)和变分自动编码器(VAE)是深度生成学习的最强大??框架。生成对抗网络的目标是在生成器和鉴别器之间达到平衡,而变分ft动编码??器则试图最大化对数似然的下界。目前已经为GAN和VAE开发了系列模型??扩展,此外,它们还已经应用于处理聚类任务。??生成对抗网络是近年来流行的一种深度生成模型,GAN框架在神经网络之??时建立了最小-最大对抗博弈:一个生成网络G和一个判别网络D。该生成网络??尝试将样本z从先前分布p〇)映射到数据雙间》而判别网络尝试根据数据分布计??算输入是真实样本而不是生成网络生产数据的概率,优化目标如下面公式(2-3)??所示,可以交替使用SGD优化生成器G和判别器GAN提供了一种对抗性的??解决方案,可以将数据或其表示的分布与任意先验分布进行匹配。近年来,已经??提出了许多塞于GAN的聚类算法,其中一些算法特定于聚类任务,而另一些仅??以聚类为特例。基于GAN的深度聚类算法具有GAN相同的问题,例如难以收??敛和模式崩溃。??minmaxEx^Pdata[logD(x)]?+?Ez^p(z)[log(l?-?D(G(z)))]?(2-3)??变分自动编码器可以看成是ft动编码器的变体,它要求自动编码器的潜在部??分必须遵循_种预定义的分布,它将变分贝叶斯方法与神经网络的灵活性和可扩??展性结合在一起,使得神经网络能适应条件后验,可以通过随机梯度下降和标准?
?3基于去噪_编码器的锌度于g间聚类:算袪???如下面图3-1所示,其中x是原始数据,2是破坏以后的数据,/是编码部分,设是??解码部分,L是损失函数。??★?????L(x,xr)??图3-1去噪自编码器??Figure?3-1?Denoising?Autoencoder??如前所述,通过最小化训练集上的平均重建误差LH(X,Z)?=H(SX||SZ)来训??练参数,使Z尽可能接近未损坏的输入X,降噪自编码器最关键的区别在于z现在??是无的确定函数,而不是x的,因此是x随机映射的结果。根据如下面公式(3-13)??所示的来定义联合分布,其中,Hu共v时,心〇)的值为〇,園此r是尤的确定函??数,qQ〇,兄r)的参数为0,通过随机梯度下降最小化的目标函数变为下面公式??(3-14)所示。??q°(X,X,Y)?=?q°(X)qD(X\X)8fgm(Y)?(3-13)??arg?min?Eq〇{x^?[LH{X,?ge>(fg(X)))]?(3-14)??因此从随机梯度下降算法的角度来看,除了从训练集中选取输入样本外,降??噪自动编码器还将生成一个随机的损坏样本,并采取梯度步骤从损坏样本中重建??未损坏样本,这种方式与基本的自动编码器不同,因此需要消除了d'<d的约束??或需要专门进行正则化来避免这种琐碎解决方案的约束。??3.?1.3逐层初始化和微调??墓本的自动编码器已被用作构建和训练深度网络,第k眉的输入用作第k+1??层的输出,训练第k+1层的时候前面k层都已训练过,在训练了几层之后,将参??数用作针对监督训练标准进行优化的网络的初始化。已经证明,这种贪婪的逐层??过程比深度网络的随机初始化产
【参考文献】:
期刊论文
[1]深度学习和深度强化学习综述[J]. 赵德宇. 中国新通信. 2019(15)
[2]自编码神经网络理论及应用综述[J]. 袁非牛,章琳,史劲亭,夏雪,李钢. 计算机学报. 2019(01)
[3]深度卷积自编码图像聚类算法[J]. 谢娟英,侯琦,曹嘉文. 计算机科学与探索. 2019(04)
本文编号:3453163
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3453163.html