面向自动问答的深度学习算法研究

发布时间:2021-07-18 11:05
  随着人工智能领域的迅猛发展,人们的研究方向已经不仅仅局限于某个单独的领域,而是呈现出一种多学科、多方向相互交叉的发展态势,比如图片问答、视频问答等等,它们都是将图像处理与自然语言处理相结合的产物,特别是图片问答在这几年已经得到了学术界的广泛关注,然而作为图片问答的延伸,视频问答的研究则略显不足,其主要原因如下:第一,因为视频的三维特性导致视频特征具有更加复杂且丰富的信息描述,所以视频特征提取困难;第二,视频特征和问题特征属于不同模态下的特征,它们之间很难进行有效的交互;第三,模型在进行最后答案预测的时候,需要考虑问题的全局语义特征,但是传统的语义特征提取模型时间复杂度往往都很高,如何进一步降低特征提取的时间复杂度成为了又一大难题。为了解决上述问题,本文结合图像处理和自然语言处理等相关领域的知识,提出了以下解决办法。(1)特征提取:本文从静态特征和动态特征这两个方面对视频的特征进行了有效的提取。针对之前已有模型使用VGG提取静态特征和C3D提取动态特征的不足,本文使用全新的组合方式,使用Faster R-CNN对视频的静态特征进行提取,使用P3D对视频的动态特征进行提取,然后对提取的视频... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

面向自动问答的深度学习算法研究


构图

面向自动问答的深度学习算法研究


多前侸

导函数,函数,大学士


子、技大学士学位文12图2-3Relu函数及其导函数图2.2卷积神的基本理卷也是仿学产,LeCun人[11]受上局感受启发提出全新型,最早应于MNIST手写数字别、体机方向,同时借助于接和卷权值共享性,极大减少了型参数,提儈了型度和化性。CNN构主入层、卷层、层、化层、全接层成。(1)入层:以图作为入为例,将图化为一个三像[H,W,C],其中H代图儈度,W代图宽度,C代了图数,如果是唁图,C就于1,如果是RGB彩式下,C就于3。最后将三像作为下一层卷层入。(2)卷层:对于低分单图来,卷操作就当于全接操作,因为可以接全接层对整幅图征提取,但如今儈数产品来普及,儈像、多来多,如果只传全接,必定会成参数巨大、型拟合仈。决办为借助于CNN具有局接和全局共享性,所以在图像处中引入卷念。如图2-4所,图中显了卷层中最一分——└器(filter)或叫卷,└器有四个参数,分别是、宽、数和度,└器和宽提前指定,└器数则当前入数保持一,最后是└器度,它接决定了出单位度。如图2-5所,卷可以


本文编号:3289453

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3289453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e145b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com