当前位置:主页 > 科技论文 > 自动化论文 >

基于视觉语义关联的物体定位

发布时间:2021-03-27 10:14
  深度学习给物体的识别和检测带去了重大进展,但它们的本质只是将视觉信息和有限的语言符号进行关联。本文将它们的目标向更广义的智能推进一步,通过视觉信息和任意语言描述的关联,使得智能体能像人类一样理解对物体的指示说明,从而能在视觉感知图像中,唯一定位出符合语言指令的目标区域,这个任务叫做视觉依据。本任务的输入为图像和文本,输出为目标物体的占据区域,属于视觉和语言的交叉领域。由于认知功能的复杂性,本文采用基于深度神经网络的模型,通过对大量数据样本的学习,使得模型的预测输出能够逐渐逼近真实观测。网络模型主要由三个部分组成,其中,视觉网络从图像输入中学习到视觉特征,语言网络从文本输入中学习到语言特征,关联网络计算两种特征的相关性,从而在图像中定位出和描述最匹配的物体区域。基于上述框架,本文具体分析了基于前向卷积网络的视觉特征应用到本任务时的语义缺失问题和分辨率低下问题,并对应设计了一种自顶向下的特征融合方案,融合得到的视觉特征更全面准确地表达了视觉信息,促进了和语言信息的关联;另一方面,本文通过注意力机制建模了文本中词语的背景信息,从而消除了语言在形式上的歧义,得到了随上下文自适应变化的语言特征,... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:69 页

【学位级别】:硕士

【部分图文】:

基于视觉语义关联的物体定位


本课题任务的输入输出示例

物体检测,输入输出,示例


1.1 课题来源及意义近年来,人工智能分别在计算机视觉和自然语言处理上取得了重大进展,但视觉和语言并不是两种完全独立的认知能力,本课题来自它们的交叉领域,其任务目标是从图像中定位出文本描述的目标物体,见图 1-1,这个任务被称作视觉依据(VG, VisualGrounding)或者指示表达理解(REC,ReferExpressionComprehension)。值得注意的是,“定位”的含义为确定目标物体在图像中的占据区域,而不是物体的坐标。图 1-1 本课题任务的输入输出示例

物体检测


哈尔滨工业大学工学硕士论文提升了精度。本任务的早期算法一般使用 Multibox 等方法产生候选使用基于 FasterR-CNN 的算法参数候选区域,一方面是后者的精度以和网络的其他部分组成一个网络,从而联合训练优化。一个和物体检测类似的工作是物体分割,它和物体检测一样可以作方法。物体检测用矩形框表示物体的占据区域,物体分割给出了物sk R-CNN[16]同时给出了这两者,见图 1-3。Mask R-CNN 是 Faste个掩膜(mask)分支得到,并且它将物体检测里的 RoI 采样(Regio为了 RoI 对齐(align),因此同时提升了物体分割和物体检测的精度的定位结果可以用矩形框表示,也可以用像素级分割的掩膜表示,选区域的表示方法,因为本算法的定位只是对候选区域进行一个选产生方法使用 Mask R-CNN,那么得到的定位结果同时具有这两种究该检测算法,仅仅把它当作一个预处理过程,直接应用它的结果


本文编号:3103334

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3103334.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户69877***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com