弱监督自然语言图像实例分割方法研究

发布时间:2021-02-19 18:19
  图像语义分割任务因其广泛应用于自动驾驶、环境感知、人体解析等场景,成为了计算机视觉的热门研究方向之一,然而其只能分割出同类事物,无法将单个事物区分开来,图像实例分割任务则是针对该问题提出的有效解决方案。当前在一些人机交互应用场景中,出现了需要自然语言和图像数据共同作用完成的功能,例如人们给服务型机器人下达“open the door”命令后,机器人则结合语言信息和摄像头捕获的图像信息做出动作响应,由此产生了一项新颖的自然语言图像实例分割任务,该任务旨在根据输入的图像和描述语句输出与描述内容相符的分割结果。目前已提出的自然语言图像实例分割模型均采用强监督的训练方式,即利用像素级标注分割目标的数据集作为监督样本,然而构造此类数据集需要耗费大量人力和时间。针对训练数据集获取成本高的问题,本文从模型训练角度进行了弱监督方法的相关研究,其主要内容和创新点如下:(1)针对强监督模型采集训练数据成本高的问题,提出一种基于弱监督的自然语言图像实例分割模型,该模型仅需目标中心点和图像级标签即可完成训练,有效降低了训练数据的获取成本。(2)针对弱监督数据无法提供精确分割目标先验信息的问题,提出一种迭代训练... 

【文章来源】:西华大学四川省

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

弱监督自然语言图像实例分割方法研究


图像分割任务在不同应用中可分为图像语义分割、图像实例分割、自然语言图像实例分割

融合图像,内容定位,语句,目标


弱监督自然语言图像实例分割方法研究8图1.3根据输入语句的描述内容定位指定目标,例如“aboyskatingwiththenumber56onhisvest”Fig.1.3Specifyatargetbasedonthedescriptionoftheexpressionsuchas"aboyskatingwiththenumber56onhisvest"上述任务模型最早由Hu等人提出[41],通过卷积神经网络模型和长短期记忆网络模型(LongShort-TermMemory,LSTM)[36],分别提取图像语义特征信息和描述语句上下文特征信息,将两者与显式构造的空间相对位置矩阵进行通道维度上的级联,作为包含非线性激活函数的卷积层的输入,并对输出的联合特征上每个特征点进行分类操作,得到最终的分割结果。为了更好地融合图像特征信息和语言特征信息,Liu等人[42]将每个单词的上下文特征信息单独与卷积神经网络提取的图像语义特征信息、空间相对位置信息进行通道维度上的级联,该过程如图1.4所示,不同于Hu等人[41]提出的方法中仅仅利用了描述语句的全局上下文特征信息,并且还提出了多模态长短期记忆网络模型(MultimodalLSTM),以序列化的方式提取上述得到的多个级联特征信息,保证了模型最后输出语义更加丰富的特征信息。Edgar等人[44]提出动态多模态网络模型(DynamicMultimodalNetwork),在Liu等人[42]提出的方法基础上充分利用网络模型中间阶段生成的特征信息,将其与后半段生成的特征信息进行适当融合,以此增强网络模型的表征能力,并且采用简单循环单元(SimpleRecurrentUnits)[45]代替标准的长短期记忆网络模型来提取描述语句的特征信息,使得处理过程更加高效。

语义特征,单词,卷积,上下文


西华大学硕士学位论文9图1.4将每个单词的上下文特征信息单独与卷积神经网络提取的图像语义特征信息、空间相对位置信息进行通道维度上的级联[42]Fig.1.4Contextualfeatureinformationforeachwordalonewithimagesemanticfeatureinformation,spatialrelativepositioninformationextractedbytheconvolutionalneuralnetworkPerformacascadeonthechanneldimension[42]鉴于以往的文本特征提取模型没有考虑每个单词在分割过程中的贡献程度,以及忽略了图像中不同区域对分割结果的影响,Shi等人[46]提出了关键词感知网络模型(Key-word-awareNetwork),采用注意力机制依照描述语句的整体语义赋予每个单词不同的权重,并以此构造出图像中不同区域间的关系,用于生成与描述语句对应的分割结果。Li等人[47]的工作重点则是在Hu等人[41]提出的方法基础上,引入了卷积长短期记忆网络模块(ConvolutionalLSTM),将图像特征、文本特征、空间相对位置三者级联后的信息作为模型输入,参照金字塔网络模型的处理过程,逆向融合多尺度的图像语义特征,以增强模型生成更精细分割结果的能力。Ye等人[48]发现已有的多模态模型在提取图像特征和文本特征时,基本上使用的是两个独立的模型分支,并没有实现特征提取过程的多模态融合,忽略了图像与文本间存在的隐含关系,为解决该问题,Ye等人[48]提出了交叉模态自注意力模块(Cross-modalSelf-attention),实现了高效提取文本特征与图像特征间隐含的依赖关系,进一步提高了模型的分割精度。

【参考文献】:
期刊论文
[1]多主题的图像描述生成方法研究[J]. 李晓莉,张慧明,李晓光.  小型微型计算机系统. 2019(05)
[2]全卷积语义分割与物体检测网络[J]. 肖锋,芮挺,任桐炜,王东.  中国图象图形学报. 2019(03)
[3]Attention-YOLO:引入注意力机制的YOLO检测算法[J]. 徐诚极,王晓峰,杨亚东.  计算机工程与应用. 2019(06)
[4]融合超像素和伪流算法的交互式图像分割[J]. 瞿绍军,李乔良,陈明,谭煌.  小型微型计算机系统. 2018(12)
[5]深度学习实时多人姿态估计与跟踪[J]. 许忠雄,张睿哲,石晓军,岳贵杰,刘弋锋.  中国电子科学研究院学报. 2018(04)
[6]一种改进的One-Cut交互式图像分割算法[J]. 王栋,唐晶磊.  计算机工程与科学. 2018(06)
[7]基于深度卷积网络的目标检测综述[J]. 吴帅,徐勇,赵东宁.  模式识别与人工智能. 2018(04)
[8]基于改进Faster R-CNN的空中目标检测[J]. 冯小雨,梅卫,胡大帅.  光学学报. 2018(06)
[9]一种多尺度CNN的图像语义分割算法[J]. 刘丹,刘学军,王美珍.  遥感信息. 2017(01)
[10]基于DCNN的图像语义分割综述[J]. 魏云超,赵耀.  北京交通大学学报. 2016(04)



本文编号:3041504

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3041504.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ea684***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com