基于多特征融合及短期记忆选择网络的视觉关系检测
发布时间:2023-04-22 05:18
自2012年Alex-Net在ImageNet大规模图像分类比赛中取得成功后,深度学习在图像分类、目标检测和分割的性能上都取得了非常大的提升,达到甚至超过了人类的识别水平。在此基础上,进一步研究图像内容理解成为大势所趋。视觉关系检测作为对象检测和图像理解的中间级任务,在近几年受到越来越多的关注,成为计算机视觉领域的研究热点之一。视觉关系检测的目标是从图像中识别出所有的<主语-谓词-宾语>三元组,同时标注出主语和宾语的位置,可分为谓词检测、短语检测、关系检测等三个子任务。与图像分类、目标检测等任务相比,对象之间的关系更为抽象,因而如何有效表征自然图像中对象之间的视觉关系是一个挑战。近几年来研究人员先后提出了基于语言先验、统计依赖和知识表征学习等技术的视觉关系检测方法,它们利用了对象的视觉特征、位置特征和/或者语义特征进行关系检测。然而,这些方法一方面没有充分获取有效表征对象间视觉关系的特征,另一方面也没有考虑不同种类特征之间的相互联系,因此检测性能还不太理想。针对上述问题,本文对图像中对象之间的视觉关系表征进行探索,从对象多特征融合表达、多特征的相互关联作用两个角度,对视觉关...
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.2 视觉关系检测及其挑战
1.3 国内外研究现状
1.4 本文主要工作
1.5 本文组织结构
第2章 相关研究工作
2.1 目标检测
2.1.1 基于Single Shot的目标检测算法
2.1.2 基于R-CNN的目标检测算法
2.2 短期记忆选择理论
2.3 视觉关系检测
2.3.1 基于语言先验的视觉关系检测
2.3.2 基于翻译嵌入模型的视觉关系检测
2.3.3 深度关系网络
2.4 本章小结
第3章 基于多特征融合的视觉关系检测
3.1 研究问题
3.2 基于多特征融合的视觉关系检测算法
3.2.1 网络整体框架
3.2.2 多特征模块
3.2.3 特征融合
3.2.4 损失函数
3.3 实验与分析
3.3.1 数据集
3.3.2 评价指标
3.3.3 参数的选择和数据的预处理
3.3.4 实验结果及其分析
3.4 本章小结
第4章 基于短期记忆选择网络的视觉关系检测
4.1 网络的整体框架
4.2 网络模块介绍
4.2.1 目标检测
4.2.2 特征提取和融合
4.2.3 短期记忆选择网络
4.3 实验与分析
4.3.1 数据集和训练参数设置
4.3.2 实验结果与分析
4.3.3 各模块对不同类型谓词检测结果的影响
4.4 本章小结
第5章 总结和展望
5.1 本文工作总结
5.2 未来工作展望
参考文献
攻读硕士学位期间主要的研究成果
致谢
本文编号:3796995
【文章页数】:68 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景和意义
1.2 视觉关系检测及其挑战
1.3 国内外研究现状
1.4 本文主要工作
1.5 本文组织结构
第2章 相关研究工作
2.1 目标检测
2.1.1 基于Single Shot的目标检测算法
2.1.2 基于R-CNN的目标检测算法
2.2 短期记忆选择理论
2.3 视觉关系检测
2.3.1 基于语言先验的视觉关系检测
2.3.2 基于翻译嵌入模型的视觉关系检测
2.3.3 深度关系网络
2.4 本章小结
第3章 基于多特征融合的视觉关系检测
3.1 研究问题
3.2 基于多特征融合的视觉关系检测算法
3.2.1 网络整体框架
3.2.2 多特征模块
3.2.3 特征融合
3.2.4 损失函数
3.3 实验与分析
3.3.1 数据集
3.3.2 评价指标
3.3.3 参数的选择和数据的预处理
3.3.4 实验结果及其分析
3.4 本章小结
第4章 基于短期记忆选择网络的视觉关系检测
4.1 网络的整体框架
4.2 网络模块介绍
4.2.1 目标检测
4.2.2 特征提取和融合
4.2.3 短期记忆选择网络
4.3 实验与分析
4.3.1 数据集和训练参数设置
4.3.2 实验结果与分析
4.3.3 各模块对不同类型谓词检测结果的影响
4.4 本章小结
第5章 总结和展望
5.1 本文工作总结
5.2 未来工作展望
参考文献
攻读硕士学位期间主要的研究成果
致谢
本文编号:3796995
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3796995.html
最近更新
教材专著