基于注意力与上下文关联的多标签图像分类研究
发布时间:2021-10-10 09:43
随着互联网的发展,多媒体数据不断增长。对大规模多媒体数据进行分类是一项极具挑战性的任务,重要原因之一是多媒体数据可以同时属于多个类别。在多媒体数据中,图像占有很大的比重,因此,多标签图像分类受到越来越多的重视。在多标签图像分类中,图像可以有多个类别标签。现有的多标签图像分类方法主要存在两个问题:第一个问题是没有考虑图像中上下文关联关系,而利用类别标签之间的关系可以提升分类性能;第二个问题是忽略了图像中的空间信息,导致类别标签与图像区域产生错误关联的问题。为了解决这些问题,本文提出了三种多标签图像分类方法。本文的主要研究内容如下:首先,针对忽略图像中的空间信息问题,本文提出一种基于注意力机制的多标签图像分类模型。该模型使用Res Net提取特征,并使用CNN为每一个类别标签生成对应的注意力图,然后使用注意力图对特征图进行加权,最后使用加权特征图进行分类。实验结果表明,模型能主动关注类别标签对应图像区域,进而增强分类效果。其次,为了更好的利用标签之间的关系,本文提出一种基于STN和LSTM的多标签图像分类模型。所提出的模型使用VGG提取特征,然后使用STN实现注意力机制,最后使用LSTM获...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
残差结构[14]
哈尔滨工业大学工学硕士学位论文-25-然后,网格生成器根据输入图像的大小以及进行仿射变换的变换参数生成目标位置在输入图像U中对应的位置,如式(3-7)所示。111213111213212223212223,=1tsiitsiixxyy=M(3-7)其中,(,)ssiixy是原图像的坐标位置,(,)ttiixy是目标图像的坐标位置,M是变换矩阵;最后,采样器根据目标在输入图像中的对应位置利用双线性插值得到最终的图像。图3-5STN示意图[38]模型采用空间变换网络直接从特征图上提取候选区域,STN可以根据给定的大小对原始图像实现裁剪、平移、缩放和旋转操作。在本文的网络模型中,转换矩阵M是由后面设计的定位网络计算产生,其中11和22控制大小,13和23控制位置。由于在分类过程中只需要裁剪操作,所以将其他参数硬性限制为0,如式(3-8)所示。111322230(,),=0tttattttst=ffMM(3-8)其中,st()表示空间转换,tM是由第t-1次的迭代过程计算得到的变换矩阵。具体实施时,本文并没有选择在定位网络产生变换矩阵tM之后将11,13,22和23之外的参数置为0,而是直接让定位网络学习这4个参数,这样能避免不必要的计算并充分利用计算得到的信息。在第t次迭代时,STN能够根据当前的转换矩阵tM在特征图af上提取部分区域以寻找特定目标,并利用双线性插值后生成指定大小的特征图tf。在第一次迭代时,由于没有可用信息,因此将整个特征图af作为候选区域tf以寻找特征图中目标明显的部分,此时的转换矩阵如式(3-9)所示。
哈尔滨工业大学工学硕士学位论文-48-5.2.1图像标注图像标注功能的实现关键是依赖训练好的网络模型对图像进行分类,相比VOCPASCAL2007数据集,MSCOCO2014数据集中有更多的类别标签,这些类别标签含有常见的目标,因此系统使用在MSCOCO数据集上训练的模型实现图像标注功能。MSCOCO2014数据集中有80个常见的类别标签,模型输出结果可以是这80个类别标签的任意组合。程序功能界面如图5-2所示,用户首先上传图像,再点击预测按钮便可以对图像进行标注,标注结果在图像上方显示。需要说明的是,本文选取置信度中排名前10并且大于0.5的类别标签作为最终结果。图5-2图像标注功能界面5.2.2图像搜索图像搜索功能不依赖训练好的网络模型,主要根据用户输入的信息从数据库检索图像。数据库中存储了MSCOCO2014数据集中所有的训练图像,共82081幅图像。用户能从80个类别标签中任意组合作为搜索条件进行搜索。程序功能界面如图5-3所示,用户首先输入多个类别标签(也可以是一个类别标签),然后点击搜索按钮进行搜索,搜索到的图像在下方显示。其中需要说明的是,搜索得到的图像关联的类别标签可能多于用户输入的类别标签(包含用户输入的类别标签)。
本文编号:3428134
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
残差结构[14]
哈尔滨工业大学工学硕士学位论文-25-然后,网格生成器根据输入图像的大小以及进行仿射变换的变换参数生成目标位置在输入图像U中对应的位置,如式(3-7)所示。111213111213212223212223,=1tsiitsiixxyy=M(3-7)其中,(,)ssiixy是原图像的坐标位置,(,)ttiixy是目标图像的坐标位置,M是变换矩阵;最后,采样器根据目标在输入图像中的对应位置利用双线性插值得到最终的图像。图3-5STN示意图[38]模型采用空间变换网络直接从特征图上提取候选区域,STN可以根据给定的大小对原始图像实现裁剪、平移、缩放和旋转操作。在本文的网络模型中,转换矩阵M是由后面设计的定位网络计算产生,其中11和22控制大小,13和23控制位置。由于在分类过程中只需要裁剪操作,所以将其他参数硬性限制为0,如式(3-8)所示。111322230(,),=0tttattttst=ffMM(3-8)其中,st()表示空间转换,tM是由第t-1次的迭代过程计算得到的变换矩阵。具体实施时,本文并没有选择在定位网络产生变换矩阵tM之后将11,13,22和23之外的参数置为0,而是直接让定位网络学习这4个参数,这样能避免不必要的计算并充分利用计算得到的信息。在第t次迭代时,STN能够根据当前的转换矩阵tM在特征图af上提取部分区域以寻找特定目标,并利用双线性插值后生成指定大小的特征图tf。在第一次迭代时,由于没有可用信息,因此将整个特征图af作为候选区域tf以寻找特征图中目标明显的部分,此时的转换矩阵如式(3-9)所示。
哈尔滨工业大学工学硕士学位论文-48-5.2.1图像标注图像标注功能的实现关键是依赖训练好的网络模型对图像进行分类,相比VOCPASCAL2007数据集,MSCOCO2014数据集中有更多的类别标签,这些类别标签含有常见的目标,因此系统使用在MSCOCO数据集上训练的模型实现图像标注功能。MSCOCO2014数据集中有80个常见的类别标签,模型输出结果可以是这80个类别标签的任意组合。程序功能界面如图5-2所示,用户首先上传图像,再点击预测按钮便可以对图像进行标注,标注结果在图像上方显示。需要说明的是,本文选取置信度中排名前10并且大于0.5的类别标签作为最终结果。图5-2图像标注功能界面5.2.2图像搜索图像搜索功能不依赖训练好的网络模型,主要根据用户输入的信息从数据库检索图像。数据库中存储了MSCOCO2014数据集中所有的训练图像,共82081幅图像。用户能从80个类别标签中任意组合作为搜索条件进行搜索。程序功能界面如图5-3所示,用户首先输入多个类别标签(也可以是一个类别标签),然后点击搜索按钮进行搜索,搜索到的图像在下方显示。其中需要说明的是,搜索得到的图像关联的类别标签可能多于用户输入的类别标签(包含用户输入的类别标签)。
本文编号:3428134
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3428134.html
最近更新
教材专著