基于多标签数据的度量学习算法研究
发布时间:2021-09-01 02:37
近年来,随着信息技术的发展,多标签数据广泛存在于现实世界中,因此多标签学习成为了当前人工智能的主要研究热点,在影像分类、多媒体图像标注以及文本分类中得到广泛应用。不同于传统的每个样本只和一个标签有关的单标签学习,多标签学习每个样本可能与多个类别信息有关,其中每个实例可以和一组标签对应。通常多标签数据含有大量的特征,这些特征可能包含冗余和噪声,导致在学习过程中出现维度灾难问题。使得多标签学习问题相较于单标签学习问题更加困难。如何从多标签数据中提取有效特征,增强分类性能,具有重要的研究意义。同时,随着数据规模的增大,获取数据的标签信息需要很大的代价。如何利用数据的几何结构以及部分的标签信息提升分类性能,也是一个需要研究的问题。本文将围绕以上两个问题展开深入分析以及研究,并提出一些新的模型和解决方案。本文的研究内容主要从以下三个方面展开:(1)传统的度量学习算法LMNN(Large Margin Nearest Neighbor)只能用于学习单标签数据的度量矩阵。针对此问题,本文提出一种加权LMNN算法,将其应用于多标签数据的度量矩阵学习。此外,作为一种线性度量学习方法,LMNN所学习的度量...
【文章来源】:华侨大学福建省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
单标签和多标签对比示例图
14然后以作为相似度矩阵,应用拉普拉斯特征映射法对原始数据进行降维。3.2基于多标签数据的加权大间隔最近邻算法设,,…,是从低维流形上采样的n个数据点构成的集合,其中。每个数据点与c个标签相关联,我们用一个二进制向量表示的标签信息,即如果属于第j个类别,则1,否则0。不失一般性,假设前m个样本为训练样本,对应的类别标签分别为,,…,。基于多标签数据的加权大间隔最近邻算法(WeightedLargeMarginNearestNeighborAlgorithmBasedonMultiLabelData,WLMNN),该算法在保持每个样本标签信息的权值不变的情况下,最大化不同类别之间的距离,同时保持降维后的数据的几何结构。图3.1给出了WLMNN的流程图。图3.1WLMNN算法流程图3.2.1算法模型本章针对现有算法在训练集较少情况下性能较差的问题,提出了一种新的特征提取方法。该算法在保持每个样本标签信息的权值不变的情况下,最大化不同类别的距离,同时保持降维后的流形结构,因此当数据量很小时,所提算法性能依旧很好。该算法主要从以下三个方面考虑构造损失函数,来学习一个线性映射函数:将数据集映射到维空间。(1)保持数据的局部几何结构。首先通过求解公式(3.3)的稀疏优化模型,得到公式(3.6)发现数据的局部结构,然后定义如下代价函数来保持低维空间
30法只在RankingLoss上取得了整体最优的结果,在其他的评价指标上,我们算法的结果都没有取得整体上的最优值。但是相比于基分类器ML-RR,在经过我们算法降维后,结果都有所提升,说明了我们提出算法的有效性,同时也说明所提算法并不适用于ML-RR分类器。图3.2Yeast不同训练集个数下各个指标的结果图3.2表示在Yeast数据集上,随着训练样本量的增加,每个算法的评价指标的变化趋势,从图中可以看出,随着训练样本的数量增加,所有算法的性能也越来越好。其中所提算法在训练样本量很少的时候,在各个指标上的结果都要比其他算法表现的更好,这是由于我们充分利用了未知标签数据的几何结构,使得所提算法WLMNN在样本量很少的时候,表现的比其他算法更加优越的性能,鲁棒性也比其他算法要优越。3.4本章小结本章我们提出一种基于多标签数据的加权大间隔最近邻算法,该算法可以解决多标签数据的降维问题。和现有的多标签降维算法算法相比,本章算法利用了数据的局部几何信息,在对训练样本很少的情况也能达到很好的降维效果。最后,在6个数据集上的实验结果表明,本文提出的算法WLMNN在以ML-KNN为基分类器上的结果要比其他的算法整体上性更加优越。同时,由于
本文编号:3376113
【文章来源】:华侨大学福建省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
单标签和多标签对比示例图
14然后以作为相似度矩阵,应用拉普拉斯特征映射法对原始数据进行降维。3.2基于多标签数据的加权大间隔最近邻算法设,,…,是从低维流形上采样的n个数据点构成的集合,其中。每个数据点与c个标签相关联,我们用一个二进制向量表示的标签信息,即如果属于第j个类别,则1,否则0。不失一般性,假设前m个样本为训练样本,对应的类别标签分别为,,…,。基于多标签数据的加权大间隔最近邻算法(WeightedLargeMarginNearestNeighborAlgorithmBasedonMultiLabelData,WLMNN),该算法在保持每个样本标签信息的权值不变的情况下,最大化不同类别之间的距离,同时保持降维后的数据的几何结构。图3.1给出了WLMNN的流程图。图3.1WLMNN算法流程图3.2.1算法模型本章针对现有算法在训练集较少情况下性能较差的问题,提出了一种新的特征提取方法。该算法在保持每个样本标签信息的权值不变的情况下,最大化不同类别的距离,同时保持降维后的流形结构,因此当数据量很小时,所提算法性能依旧很好。该算法主要从以下三个方面考虑构造损失函数,来学习一个线性映射函数:将数据集映射到维空间。(1)保持数据的局部几何结构。首先通过求解公式(3.3)的稀疏优化模型,得到公式(3.6)发现数据的局部结构,然后定义如下代价函数来保持低维空间
30法只在RankingLoss上取得了整体最优的结果,在其他的评价指标上,我们算法的结果都没有取得整体上的最优值。但是相比于基分类器ML-RR,在经过我们算法降维后,结果都有所提升,说明了我们提出算法的有效性,同时也说明所提算法并不适用于ML-RR分类器。图3.2Yeast不同训练集个数下各个指标的结果图3.2表示在Yeast数据集上,随着训练样本量的增加,每个算法的评价指标的变化趋势,从图中可以看出,随着训练样本的数量增加,所有算法的性能也越来越好。其中所提算法在训练样本量很少的时候,在各个指标上的结果都要比其他算法表现的更好,这是由于我们充分利用了未知标签数据的几何结构,使得所提算法WLMNN在样本量很少的时候,表现的比其他算法更加优越的性能,鲁棒性也比其他算法要优越。3.4本章小结本章我们提出一种基于多标签数据的加权大间隔最近邻算法,该算法可以解决多标签数据的降维问题。和现有的多标签降维算法算法相比,本章算法利用了数据的局部几何信息,在对训练样本很少的情况也能达到很好的降维效果。最后,在6个数据集上的实验结果表明,本文提出的算法WLMNN在以ML-KNN为基分类器上的结果要比其他的算法整体上性更加优越。同时,由于
本文编号:3376113
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3376113.html