基于多重注意力机制和特征融合算法的视觉问答系统研究
发布时间:2021-10-19 01:08
视觉问答任务是一个结合计算机视觉研究与自然语言处理两个领域的前沿方向。视觉问答系统可根据问题语义,从与问题相匹配的图像中找寻有用信息对问题进行答案预测。视觉问答任务模型包含图像特征处理、文本特征处理、多模态特征融合和答案预测四个模块,其中图像特征处理和文本特征处理均属于特征提取的范畴。在当前的视觉问答研究中,如何进行特征提取、多模态特征融合以及注意力机制的改进一直都是研究的难点问题,故而本文将针对这三个问题展开探索与研究:1.基于Faster-RCNN目标检测算法的图像预处理模型。本文利用Faster-RCNN与Resnet101相结合的方式处理图像信息,Faster-RCNN用于识别属于类的对象实例,并使用边界框对它们进行定位,进而Resnet101模型对VQA v2数据集进行预处理,提取2048维图像特征向量,图像特征信息则以矩阵向量的文件形式参与到视觉问答模型的训练中。2.基于多模态特征融合的视觉问答模型研究。为了解决跨模态特征融合的问题,基于1的工作基础,本文采用预训练好的词向量工具和长短时记忆网络对文本特征进行表征,形成一个2048维的特征向量来表示问题。然后将2048维图像...
【文章来源】:重庆邮电大学重庆市
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
npz文件中所包含的参数示例
重庆邮电大学硕士学位论文第3章基于目标检测算法的图像预处理模型31图3.5npz文件中所包含的参数示例图3.6参数类型及大小示例由图3.6可以看出,图片特征向量X中包含15个2048维的特征向量x;该图片的宽image_w为640;高image_h为480;图片中一共有15个bbox为15行4列的矩阵,每一行代表一个bbox对象框,每个bbox有两个确定的坐标共四个参数形成一个矩形框;图片中的框个数num_bbox为15。不管是在VQA数据集还是CLEVR数据集中,本文在进行图片预处理时,num_bbox的取值大小设置为[10,100],即每张图片会根据自己图中的对象复杂程度产生10-100个不等的矩阵框,以此实现“自适应”的图片特征需求。如图3.7所示为图片ID为COCO_train2014_000000006809.jpg.npz中bbox中包含的矩阵向量示例,该矩阵示例包含了该图片中每一个图像特征的位置、大小信息,该图片bbox的大小为(15,4)15行4列的数组矩阵。
重庆邮电大学硕士学位论文第3章基于目标检测算法的图像预处理模型32图3.7bbox中包含的矩阵向量示例为了进一步将图片ID为COCO_train2014_000000006809.jpg提取特征以后形成的npz文件更加便于理解,本文加入了原图与预处理图片后的效果对比情况,如图3.8所示,可以很清晰的看出图片中产生了15个bbox,每个bbox对应一个属性标签。(a)ID编号为6809的原图(b)npz文件中bbox可视化图3.8特征提取后的可视化示例2.训练结果可视化运行tools/demo.py以可视化训练数据和预测。如图3.8可以看出Faster-RCNN
【参考文献】:
期刊论文
[1]视觉问答技术研究[J]. 俞俊,汪亮,余宙. 计算机研究与发展. 2018(09)
[2]问答系统研究综述[J]. 毛先领,李晓明. 计算机科学与探索. 2012(03)
本文编号:3443860
【文章来源】:重庆邮电大学重庆市
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
npz文件中所包含的参数示例
重庆邮电大学硕士学位论文第3章基于目标检测算法的图像预处理模型31图3.5npz文件中所包含的参数示例图3.6参数类型及大小示例由图3.6可以看出,图片特征向量X中包含15个2048维的特征向量x;该图片的宽image_w为640;高image_h为480;图片中一共有15个bbox为15行4列的矩阵,每一行代表一个bbox对象框,每个bbox有两个确定的坐标共四个参数形成一个矩形框;图片中的框个数num_bbox为15。不管是在VQA数据集还是CLEVR数据集中,本文在进行图片预处理时,num_bbox的取值大小设置为[10,100],即每张图片会根据自己图中的对象复杂程度产生10-100个不等的矩阵框,以此实现“自适应”的图片特征需求。如图3.7所示为图片ID为COCO_train2014_000000006809.jpg.npz中bbox中包含的矩阵向量示例,该矩阵示例包含了该图片中每一个图像特征的位置、大小信息,该图片bbox的大小为(15,4)15行4列的数组矩阵。
重庆邮电大学硕士学位论文第3章基于目标检测算法的图像预处理模型32图3.7bbox中包含的矩阵向量示例为了进一步将图片ID为COCO_train2014_000000006809.jpg提取特征以后形成的npz文件更加便于理解,本文加入了原图与预处理图片后的效果对比情况,如图3.8所示,可以很清晰的看出图片中产生了15个bbox,每个bbox对应一个属性标签。(a)ID编号为6809的原图(b)npz文件中bbox可视化图3.8特征提取后的可视化示例2.训练结果可视化运行tools/demo.py以可视化训练数据和预测。如图3.8可以看出Faster-RCNN
【参考文献】:
期刊论文
[1]视觉问答技术研究[J]. 俞俊,汪亮,余宙. 计算机研究与发展. 2018(09)
[2]问答系统研究综述[J]. 毛先领,李晓明. 计算机科学与探索. 2012(03)
本文编号:3443860
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3443860.html
最近更新
教材专著