结合视觉内容理解与文本信息分析的视觉问答方法研究
发布时间:2021-03-03 17:16
随着人工智能与机器学习的快速发展,计算机视觉任务和自然语言处理任务受到了越来越多的研究者的关注,特别是将图像和文字两者结合的领域更是得到了广大研究者们的青睐。其中,视觉问答系统(Visual Question Answering,VQA)就是其中一个引人注目的研究领域。就单纯的计算机视觉任务而言,科研人员对物体检测、图像分割等传统视觉任务的探索,已经超越了人类肉眼的识别能力,这些研究方向已经达到了极限;同样地,就自然语言处理任务而言,该领域内的语言翻译等传统任务也已经达到了人类的认知水准,在传统自然语言任务上的发展,已经到达了瓶颈,对文字和语音的识别率已经很高,进一步的发展空间受到了限制。因此,研究者们将研究重心从传统的研究方向,转换到图像和文字两者相结合的研究方向,而视觉问答系统就是其中受到越来越多的研究者关注的方向。视觉问答系统(VQA)涉及到对图像和对应的问题的理解,随着自然语言处理和计算机视觉等深度学习相关研究领域的快速发展。目前针对视觉问答系统的研究工作高度依赖于数据集的知识。但是除了数据集知识以外,某些问题还需要更专业的知识才能正确回答问题。为了解决这类问题,本文创新性地提...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
卷积神经网络的卷积操作
最大池化操作示例
Sigmoid函数的图像
本文编号:3061628
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
卷积神经网络的卷积操作
最大池化操作示例
Sigmoid函数的图像
本文编号:3061628
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3061628.html
最近更新
教材专著