基于计算机视觉的物体抓取识别算法的研究与实现

发布时间:2021-03-24 02:19
  计算机视觉技术是人工智能的主要研究方向之一,随着图像或者视频的数据规模快速增长,以及计算能力的提升,计算机视觉技术在近几年获得了前所未有的发展,被广泛应用于多种场景,如无人驾驶,人流监控等。为了挖掘人工智能技术的应用潜力,笔者将其成功的应用了到无人零售场景。本文设计了一种物体抓取识别算法,该算法基于深度学习和计算机视觉技术,能够在目标被抓取的状态下,识别目标物体的个数和种类,可用于识别零售场景中顾客抓取的商品。它包含三个算法模块:立体匹配、物体识别和行为识别,其主要内容如下:为了让目标物体多角度的暴露在视野范围内以获得多角度的信息源,并避免单摄像机被遮挡以至算法完全失效,本文采用了多摄像机的架设方案,设计和实现了一种快速立体匹配算法,该算法利用双目相机的对极约束条件以及动态规划,能够在线性时间内完成匹配,在多个相机之间定位同一个物体。物体识别算法是本文的核心,零售场景需要识别出目标的种类及相应的个数,尽管目标检测算法可以实现这一目的,但是需要大量的标注成本和计算成本。本文使用弱监督学习的模型训练方案,设计了一种深度卷积神经网络和一个计数损失函数,不需要标注目标物体的位置信息,就可以识别... 

【文章来源】:上海师范大学上海市

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

基于计算机视觉的物体抓取识别算法的研究与实现


“维京号”火星登陆器(左)和相机(右)

界面图,界面,视频,终点位置


图 2 VATIC 标注工具的前端界面3.1 VATIC 标注工具的插值算法原理“视频”利用了人眼的视觉暂留(Persistence of Vision)原理,以较高的帧率(通常每秒高于 24 帧)播放连续的静态图像。标注视频数据的关键在于能够在时序数据中,减少对冗余信息的重复标注。比如当标注人员需要标注一段视频中的行人,那么这个行人在第t帧图像中的位置和第t + 1帧中的位置应当是非常接近的,视频标注工具应当有能力让标注人员在高冗余的连续几帧图像中,仅标注其中一张图像,即可获得所有的准确标注结果。再比如,一辆匀速直线运动的汽车,它在视频中的位置可以通过运动方程估计,视频标注软件应当能对已知起始位置和终点位置的运动物体,提供物体运动过程中的准确位置。VATIC 提供一套插值算法,能够在稀疏的标注之间进行适当的插值,也就是说对某个物体,仅需标注起始位置和终点位置,即可获得中间过程的位置估计,而且算法是离线操作的,所以算法的执行不会影响标注工具的使用体验。

直方图,对极,相机


大学硕士学位论文 第 4 章立体视配区域的积分直方图(Integral Histogram)[62][63],能够在线性时间待匹配的目标,相比[63],有更低的时间复杂度和空间复杂度优势,首先在 4.1 节介绍对极约束原理,接着在 4.2 节解释本文所实现法,最后在 4.3 节总结本模块的算法流程和实验过程。极约束 4-2 所示,P、Q 是真实世界的两点,他们都投影在πR平面上的p是单目相机(Monocular Camera),则无法通过相机所看到的p ≡ q点相对相机的距离。然而,在双目相机的条件下,点p ≡ q所看到点 P 或 Q 一定映射在右相机的绿线(点p和q所在的直线)上,这p ≡ q所对应的极线(Epipolar Line)。


本文编号:3096867

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3096867.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64b8e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com