基于不平衡约束及联合损失的深度聚类研究
发布时间:2021-04-19 03:52
在大数据时代,聚类方法作为机器学习与数据挖掘中最重要的方法之一,已经在各行各业都广泛应用。其中,半监督聚类通过增加少量的辅助监督信息,既只需要付出少量的人工成本,同时又可以获得相对高质量的聚类效果。因此,对半监督聚类的研究能够帮助各个行业在海量多维数据中快速分析数据,具有重要的应用价值和学术价值。半监督聚类的监督信息主要分为类标签和成对约束信息。本文以基于成对约束信息的半监督聚类作为研究的重点,提出了联合损失的深度聚类模型。本文的主要工作包括:1.本文提出一种联合重构损失、成对约束损失和聚类损失的深度聚类网络。该深度聚类网络采用深度自编码器网络的重构损失,确保网络的隐藏层可以学习样本的数据特征;通过构建成对约束损失,使得隐藏向量可以体现样本相似性,即相同类别的样本距离更近,不同类别的样本聚类更远;通过引入聚类损失,使得神经网络进一步学习到样本之间的相似性,从而实现良好的聚类效果。在多个实验上表明,本文提出的聚类模型具有更好的效果。2.本文提出一种基于动态代价敏感的成对约束损失。针对成对约束标签中存在类别不平衡的情况,本文采用动态学习的放大少数类样本权重的代价敏感法。本文提出的动态代价敏...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
不同的度量函数对相同的样本构建不同分类
图 2-2 神经元模型的结构示意图神经元模型是一个多输入单输出的信息处理单体表示为 [x1, x2, ..., xn], 分别经过矩阵 [w1, w2, .数进行非线性转换,最后得到输出 y。经元可以表示为输入变量 x 到输出变量 y 的映射y = sgn(n∑iwixi) 示激活函数,实际应用中通常用 Sigmoid 函数当活函数时,输出为 1;当小于等于 0 的输入通过函数,可以将线性的输出结果进行非线性转换。
(c) ReLU (d) Leaky ReLU图 2-3 常见的激活函数数为变化区间在 -1 到 1 之间的非线性函数,性质与 Sigmoid 较际应用中都存在着一个问题:在反向传播中,传播的误差太大络传播后,梯度不断相乘,导致梯度梯度消失的情况。因此,采选择神经网络的初始参数或者增加防止梯度消失的方法。,线性整流函数(Rectified Linear Unit,ReLU)也成为神经网络,其公式为:ReLU(x) = x x ≥ 00 x < 0活函数在保证非线性函数的同时,在误差反向传播中其导数通过多层神经网络的反向传播也不容易发生梯度消失的情况。
【参考文献】:
期刊论文
[1]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[2]半监督聚类算法研究现状[J]. 熊建斌,李振坤,刘怡俊. 现代计算机(专业版). 2009(12)
[3]半监督聚类的若干新进展[J]. 李昆仑,曹铮,曹丽苹,张超,刘明. 模式识别与人工智能. 2009(05)
[4]不平衡数据分类方法综述[J]. 杨明,尹军梅,吉根林. 南京师范大学学报(工程技术版). 2008(04)
[5]数据挖掘中聚类算法综述[J]. 刘克准,廖志芳. 福建电脑. 2008(08)
[6]数据挖掘中的聚类算法综述[J]. 贺玲,吴玲达,蔡益朝. 计算机应用研究. 2007(01)
[7]代价敏感支持向量机[J]. 郑恩辉,李平,宋执环. 控制与决策. 2006(04)
本文编号:3146777
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
不同的度量函数对相同的样本构建不同分类
图 2-2 神经元模型的结构示意图神经元模型是一个多输入单输出的信息处理单体表示为 [x1, x2, ..., xn], 分别经过矩阵 [w1, w2, .数进行非线性转换,最后得到输出 y。经元可以表示为输入变量 x 到输出变量 y 的映射y = sgn(n∑iwixi) 示激活函数,实际应用中通常用 Sigmoid 函数当活函数时,输出为 1;当小于等于 0 的输入通过函数,可以将线性的输出结果进行非线性转换。
(c) ReLU (d) Leaky ReLU图 2-3 常见的激活函数数为变化区间在 -1 到 1 之间的非线性函数,性质与 Sigmoid 较际应用中都存在着一个问题:在反向传播中,传播的误差太大络传播后,梯度不断相乘,导致梯度梯度消失的情况。因此,采选择神经网络的初始参数或者增加防止梯度消失的方法。,线性整流函数(Rectified Linear Unit,ReLU)也成为神经网络,其公式为:ReLU(x) = x x ≥ 00 x < 0活函数在保证非线性函数的同时,在误差反向传播中其导数通过多层神经网络的反向传播也不容易发生梯度消失的情况。
【参考文献】:
期刊论文
[1]不平衡数据分类研究综述[J]. 赵楠,张小芳,张利军. 计算机科学. 2018(S1)
[2]半监督聚类算法研究现状[J]. 熊建斌,李振坤,刘怡俊. 现代计算机(专业版). 2009(12)
[3]半监督聚类的若干新进展[J]. 李昆仑,曹铮,曹丽苹,张超,刘明. 模式识别与人工智能. 2009(05)
[4]不平衡数据分类方法综述[J]. 杨明,尹军梅,吉根林. 南京师范大学学报(工程技术版). 2008(04)
[5]数据挖掘中聚类算法综述[J]. 刘克准,廖志芳. 福建电脑. 2008(08)
[6]数据挖掘中的聚类算法综述[J]. 贺玲,吴玲达,蔡益朝. 计算机应用研究. 2007(01)
[7]代价敏感支持向量机[J]. 郑恩辉,李平,宋执环. 控制与决策. 2006(04)
本文编号:3146777
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3146777.html