当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的物体间关系检测算法研究

发布时间:2020-10-01 16:10
   近年来,智能机逐渐得到普及,用户每天产生的图像数据大幅增加。同时随着移动互联网的发展,用户越来越习惯于在网上分享图片和视频,图像理解的应用价值越发明显。虽然物体是图像中最重要的组成元素,但往往是物体间的关系决定了图像的整体含义,因此,物体间关系检测是图像理解的关键步骤,是连接计算机视觉和自然语言处理的重要桥梁。目前物体间关系检测已经成为计算机视觉领域的研究热点。目前深度学习已经成为计算机视觉领域最重要的特征提取方法,本文首先介绍了深度学习的基本理论和常用模型。其次,本文使用卷积神经网络构建了一个能够同时检测主语、谓语、宾语的关系网络,并通过与候选区域网络合并的方式得到了一个新的关系检测模型,该模型的主要优势是能够实现端到端的训练和预测。最后,本文提出了一个基于关系信息的候选区域生成算法。现有的候选区域生成算法都是只关注单个候选区域,而没有关注它们间的相关性。本文将关系信息引入到候选区域生成算法,防止其产生不合理的候选区域,从而提高了算法的召回率。通过在Visual Relationship数据集上进行实验评估并与现有算法进行对比,验证了基于关系信息的候选区域生成算法的优越性,也证明了关系信息能提高候选区域生成算法的召回率。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.41;TP181
【部分图文】:

算法流程,物体检测,候选框,方框


逑图丨-1传统物体检测算法流程逡逑传统的物体检测流程如图1-1所示,给定一张图片,候选框生成模块找出图逡逑像中可能包含物体的方框,随后分类器依据这些方框的图像特征进行分类,得到逡逑方框所属的物体类别。从检测流程可以看出,传统的物体检测算法主要包括三部逡逑分内容:候选框生成、图像特征设计和分类器。下面将依次介绍这三个部分:逡逑(1)

谓语,算法流程,现状,物体


这类算法的检测速度更快,但检测准确率较差。YOLO算法的主要思逡逑路是先将图像分成7X7的网格,并在每个网格内预估出两个物体,随后根据阈逡逑值去除可能性比较低的物体方框得到最终的检测结果,整体流程如图1-3所示。逡逑YOLO算法没有候选框机制,直接在7x7的网格上回归物体边框,这使得物体逡逑的定位不是非常准确。针对YOL?算法存在的问题,SSD算法借鉴了邋Faster邋R-逡逑CNN中描点(anchor)的理念,为每一个网格单兀预设大小、比例各不相同的多逡逑个先验框,在先验框的基础上回归物体边框。SSD算法的这一设计使得其对物体逡逑的定位更加准确。逡逑《8。——dence》>邋丨念逡逑i邋i邋1逦[邋i/逡逑wl'邋i-...1邋'ii逦平子邋lw逡逑S邋x邋S邋grid邋on邋input逦H邋H逦Final邋detections逡逑Class邋probability邋map逡逑图1-3邋YOLO算法流程[12】逡逑1.2.2谓语检测研究现状逡逑谓语检测的目标是预估出两个物体间最可能的谓语类别,目前效果比较好的逡逑谓语检测算法是李飞飞提出的含有语言先验的检测方法W以及视觉转换嵌入模逡逑型[|5]邋(VisualTranslationEmbedding,邋VTransE),下面将分别对这两种方法进行介逡逑绍。逡逑含有语言先验的检测方法的主要思路是先使用R-CNN模型检测出一张图片逡逑中所有的物体,并将这些物体两两组合构成物体对,随后使用视觉和语言两个模逡逑块判断两个物体间最可能的谓语类别。模型的语言模块使用预训练好的WOTd2vec逡逑模型[%将两个物体的类别转化为向量并进行拼接

结构图,神经元模型,计算流程,神经元


(?lA3j逡逑图2-1神经元模型结构图逡逑以图2-1中的神经元模型为例说明神经元模型的计算流程:神经元接收三个逡逑输入变量々,X2,邋X3,这些输入变量分别与权重Wi,w2,相乘并作和,随后逡逑非线性函数(也叫激活函数)对求和值进行转换得到神经元的最终输出。神经元逡逑模型的完整计算逻辑如式2-1所示,其中w,?表示权值,A表示输入,/表示激活函逡逑数。逡逑y邋=逦w^i)逦(2-1)逡逑理想的激活函数是图2-2所示的阶跃函数,它能将输入值映射为0或者1(对逡逑应于生物神经元,1表示兴奋,0表示抑制)。然而,阶跃函数具有不连续、不光逡逑滑等缺点,因此实际中一般使用Sigmoid[231和修正线性单兀[241邋(Rectified邋Linear逡逑Unit,ReLU)作为激活函数。逡逑1.5|逡逑1.0逦逡逑0.5邋-逡逑I逦L...邋.邋邋邋—邋1逦逦!逦!逦>逡逑-3-2-10123逡逑图2-2阶跃函数逡逑2.1.2邋BP神经网络逡逑上面介绍的yL经元模型结构非常简单,只是对输入数据做了一次加权求和以逡逑及一次非线性变换

【相似文献】

相关期刊论文 前10条

1 王三虎;强彦;;基于混沌粒子优化匹配的无线传感网簇区域生成算法[J];计算机工程与设计;2016年11期

2 李忠东;;你快乐不快乐[J];检察风云;2019年09期

3 胡乾;;数字图像处理的区域分割浅析[J];电子世界;2016年07期

4 日月光;;图像模糊也玩花样[J];电脑迷;2005年16期

5 王宸昊;黄辉先;吴翼;汤红忠;;彩色汽车牌照的定位方法[J];兵工自动化;2006年06期

6 周敬;;图像分割中阈值法的研究[J];机电技术;2010年01期

7 徐红云;许隽;龚羽菁;徐梦真;;基于空间混淆位置隐私保护的位置隐私区域生成算法[J];华南理工大学学报(自然科学版);2014年01期

8 杨师帆;建设文化大省战略中的广东音乐[J];探求;2005年03期

9 刘佳;方贤进;康佳;;社交网络中的位置隐私保护研究[J];电脑知识与技术;2014年28期

10 王旭初;翟随强;牛彦敏;葛永新;;结合候选区域距离度量学习与CNN分类回归联合的左心室检测[J];计算机辅助设计与图形学学报;2019年03期

相关博士学位论文 前1条

1 任少卿;基于特征共享的高效物体检测[D];中国科学技术大学;2016年

相关硕士学位论文 前7条

1 董亚辉;基于深度学习的物体间关系检测算法研究[D];北京邮电大学;2019年

2 王田雨;目标检测中候选区域生成算法的研究与改进[D];哈尔滨工业大学;2018年

3 刘晓龙;基于图像的行人检测算法研究[D];国防科学技术大学;2017年

4 王宾;基于区域生成网络的自动驾驶系统行人检测算法实现[D];西南交通大学;2018年

5 赵晶晶;CoMP系统协作区域生成与调度算法研究[D];北京邮电大学;2013年

6 代慧;高分辨SAR图像目标区域提取方法研究[D];西安电子科技大学;2017年

7 徐晓涛;车牌识别中关键技术的研究[D];东华大学;2012年



本文编号:2831671

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2831671.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3aeb4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com