计算机视觉中的有限监督学习研究
发布时间:2022-01-12 06:39
近年来,计算机视觉中的识别任务,图像分类、目标物体定位、图像语义分割等,在有监督机器学习框架中取得具有前景的效果。然而,这样的机器学习系统要能在实际任务中被广泛使用,具有良好的表现和鲁棒的性能,需要依赖于大量精确标注的训练数据。获得大量精确标注的训练数据需要高昂的时间和人力成本。探索在尽可能使用少量标注情况下获得良好性能的机器学习方法(即有限监督学习方法)有助于降低获取精确标注样本所需要的时间和人力成本。因此,本文围绕着有限监督学习,研究了典型应用于图像分类中的基于图的半监督学习算法、基于全卷积网络的弱监督目标定位算法以及少样本语义分割算法,分别提出新的改进算法并进行实验验证。具体进行的主要研究工作包括:1、基于图的半监督分类算法中,快速弹性流形嵌入算法的研究。本文研究的第一个问题是基于大规模图的多类分类半监督学习问题。现有的可应用于大规模数据集的基于图的半监督学习方法大多不能处理未见样本或是基于硬线性约束,这限制了它们的应用范围和算法学到的模型性能。为此,本文在前人工作的基础上,提出了两种新的线性复杂度的算法,快速弹性流形嵌入算法(f-FME)和简化弹性流形嵌入算法(r-FME)。这...
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:110 页
【学位级别】:博士
【部分图文】:
论文结构关系图
华南理工大学博士学位论文图3-1线性模型和其残差项示意图3.3.2弹性流形算法弹性流形算法整合了基于图的半监督学习算法中的流形平滑、标签适配和线性回归思想,并有所改进。具体地,在给定X、S和Y的情况下,弹性流形嵌入算法(flexiblemanifoldembedding,FME)[1]的目的是寻找最佳的软预测标签矩阵F=h(X)+F0∈Rn×c,其中h(X)=XTW+1bT,F0∈Rn×c是回归残差项,其他定义和式(3-4)中相同。FME通过最小化以下目标函数,同时计算F和h(X)(F,W,b)=argminF,W,bTr(FTLF)+Tr[(FY)TU(FY)]+μ(∥XTW+1bTF∥2F+γ∥W∥2F),(3-5)式中μandγ是用来平衡不同项的参数,L=DS和U∈Rn×n的定义与式(3-2)中相同。U被用来给有标记数据和未标记数据设置不同的权重。在不失去一般性的情况下,本章节中重写了式(3-5)中的参数μ和γ,这与原始FME论文[1]不同。假设原FME论文[1]中式(8)的参数分别为βandλ。当β=μγandλ=γ1时,式(3-5)等同于原FME论文[1]中式(8)。在FME的目标函数式(3-5)中,第一个项是流形平滑约束项,它鼓励邻近的数据点更可能为相同的分类标签;第二个项是标签适配约束项,表示其中对有标记数据的良好的预测分数应该接近其所给定的标签;第三个项是残差项F0=XTW+1bTF,它控制着F和h(X)之间差异的大小;第四个项是规则化项,控制h(X)的模型复杂度。24
第三章基于快速流形嵌入的半监督分类(a)Twomoon(b)Pinwheel图3-2合成数据集“Twomoon”和“Pinwheel”示意图。不同的颜色代表不同的类别L,设置γA和γI为{109,106,103,100,103,106,109}。对于f-FME和r-FME,设置μ和γ为从1024到1024的值,步长为103。实验中报告了最佳参数配置下的top-1识别准确度。合成数据集“Twomoon”[58]和“Pinwheel”注2[133](如图3-2所示)用于本小节中的性能评估。实验随机为每个类别生成1000个数据点,并分别使用其中一半作为训练和测试数据集。对于训练集,每个类别随机标记2个样本,并将其余的训练样本视为未标记的数据。本小节中将训练集中的未标记数据和未看到的测试数据分别称为“Unlabel”和“Test”。在本小节中,实验使用的锚点数量为m=100。实验报告了20轮实验的平均识别精度。结果见表3-4。实验观察到f-FME和r-FME在合成数据集上表现良好,这证明了本章节所提出的f-FME和r-FME的有效性。由于f-FME和r-FME能够有效地利用有标记和未标记数据的信息,因此它们在测试集上具有更高的精确度。3.7.3f-FME和r-FME的有效性本小节中将f-FME和r-FME与FME在使用不同数量的锚数据点下进行比较。实验在USPS手写数字数据集[2]上进行,这个数据集包含7291张训练图像和2007张测试图像,10种类别的数字。参数设置与3.7.2小节中一样。本小节实验中每个类别使用10个有标记的数据。结果如图3-3中所示,这表明当锚点的数量m增加时,分类精度会提高。还可以看到f-FME和r-FME通过使用少量的锚数据点可以达到与FME相当的结果。3.7.4大规模现实数据集上的性能为了进一步将f-FME和r-FME与现有的快速半监督学习方法进行比较,本小节使用以下大型现实数据集进行了实验。由于FME不适用于大规模数据集(见章节3.7.1),注2ht
本文编号:3584297
【文章来源】:华南理工大学广东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:110 页
【学位级别】:博士
【部分图文】:
论文结构关系图
华南理工大学博士学位论文图3-1线性模型和其残差项示意图3.3.2弹性流形算法弹性流形算法整合了基于图的半监督学习算法中的流形平滑、标签适配和线性回归思想,并有所改进。具体地,在给定X、S和Y的情况下,弹性流形嵌入算法(flexiblemanifoldembedding,FME)[1]的目的是寻找最佳的软预测标签矩阵F=h(X)+F0∈Rn×c,其中h(X)=XTW+1bT,F0∈Rn×c是回归残差项,其他定义和式(3-4)中相同。FME通过最小化以下目标函数,同时计算F和h(X)(F,W,b)=argminF,W,bTr(FTLF)+Tr[(FY)TU(FY)]+μ(∥XTW+1bTF∥2F+γ∥W∥2F),(3-5)式中μandγ是用来平衡不同项的参数,L=DS和U∈Rn×n的定义与式(3-2)中相同。U被用来给有标记数据和未标记数据设置不同的权重。在不失去一般性的情况下,本章节中重写了式(3-5)中的参数μ和γ,这与原始FME论文[1]不同。假设原FME论文[1]中式(8)的参数分别为βandλ。当β=μγandλ=γ1时,式(3-5)等同于原FME论文[1]中式(8)。在FME的目标函数式(3-5)中,第一个项是流形平滑约束项,它鼓励邻近的数据点更可能为相同的分类标签;第二个项是标签适配约束项,表示其中对有标记数据的良好的预测分数应该接近其所给定的标签;第三个项是残差项F0=XTW+1bTF,它控制着F和h(X)之间差异的大小;第四个项是规则化项,控制h(X)的模型复杂度。24
第三章基于快速流形嵌入的半监督分类(a)Twomoon(b)Pinwheel图3-2合成数据集“Twomoon”和“Pinwheel”示意图。不同的颜色代表不同的类别L,设置γA和γI为{109,106,103,100,103,106,109}。对于f-FME和r-FME,设置μ和γ为从1024到1024的值,步长为103。实验中报告了最佳参数配置下的top-1识别准确度。合成数据集“Twomoon”[58]和“Pinwheel”注2[133](如图3-2所示)用于本小节中的性能评估。实验随机为每个类别生成1000个数据点,并分别使用其中一半作为训练和测试数据集。对于训练集,每个类别随机标记2个样本,并将其余的训练样本视为未标记的数据。本小节中将训练集中的未标记数据和未看到的测试数据分别称为“Unlabel”和“Test”。在本小节中,实验使用的锚点数量为m=100。实验报告了20轮实验的平均识别精度。结果见表3-4。实验观察到f-FME和r-FME在合成数据集上表现良好,这证明了本章节所提出的f-FME和r-FME的有效性。由于f-FME和r-FME能够有效地利用有标记和未标记数据的信息,因此它们在测试集上具有更高的精确度。3.7.3f-FME和r-FME的有效性本小节中将f-FME和r-FME与FME在使用不同数量的锚数据点下进行比较。实验在USPS手写数字数据集[2]上进行,这个数据集包含7291张训练图像和2007张测试图像,10种类别的数字。参数设置与3.7.2小节中一样。本小节实验中每个类别使用10个有标记的数据。结果如图3-3中所示,这表明当锚点的数量m增加时,分类精度会提高。还可以看到f-FME和r-FME通过使用少量的锚数据点可以达到与FME相当的结果。3.7.4大规模现实数据集上的性能为了进一步将f-FME和r-FME与现有的快速半监督学习方法进行比较,本小节使用以下大型现实数据集进行了实验。由于FME不适用于大规模数据集(见章节3.7.1),注2ht
本文编号:3584297
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3584297.html
最近更新
教材专著