基于密集卷积神经网络特征提取的图像描述模型研究
发布时间:2021-10-14 06:25
近年来,Graphic Processing Unit(GPU)计算功能的提升促进了人工智能和深度学习的兴起。其中,计算机视觉,虚拟现实,自然语言处理,增强现实,语音识别等一系列领域的兴起,直接对我们对生活产生了深远的影响。在计算机视觉领域中,ImageNet,COCO,VOC等数据集的出现以及AlexNet,VGG,ResNet,Inception,DenseNet等经典卷积神经网络(Convolutional Neural Network,CNN)模型的提出,极大的促进了许多计算机视觉工作(图像分类,目标检测,目标跟踪,图像语义分割,图像描述等)的深度研究;在自然语言处理中,Encoder-Decoder模型,Seq2Seq模型以及Attention机制的引入使得机器翻译,文本挖掘,情感分析,系统问答等都有显著的发展;同时在语音识别中,语音特征提取,文本模式匹配等等一系列工作都得到了广泛的研究。图像描述是人工智能中一个非常热门的研究课题,它集合了计算机视觉和自然语言处理两大领域,而且应用也是非常广泛,例如,图像翻译,图像检索,儿童早教等等各个方面。本文通过密集卷积神经网络(Dens...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
图3-1?DenseNetM结构图??
?3.2.1网络结构图??下面是网络模型的结构图,图像描述模型的结构如图3-2所示,其中包括了三个??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用来对输入图像进行抽象表示,Decoder主要是LSTM,将Encoder的??结果(图像特征图)转换为对应的句子。而两者的连接部分就是“Visual?Attention??Switch”,具体的结构如图3-3所示,能够根据不同的输入词汇将注意力转换到对应??的图像部分,使得生成的图像描述句子语义信息更加丰富。下一节结合公式来具体??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??图3-2网络结构模型。本文使用DenseNet来从输入图像中抽取深度特征图(C通道xW宽??度xH高度)。然后连接特征图
?3.2.1网络结构图??下面是网络模型的结构图,图像描述模型的结构如图3-2所示,其中包括了三个??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用来对输入图像进行抽象表示,Decoder主要是LSTM,将Encoder的??结果(图像特征图)转换为对应的句子。而两者的连接部分就是“Visual?Attention??Switch”,具体的结构如图3-3所示,能够根据不同的输入词汇将注意力转换到对应??的图像部分,使得生成的图像描述句子语义信息更加丰富。下一节结合公式来具体??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??图3-2网络结构模型。本文使用DenseNet来从输入图像中抽取深度特征图(C通道xW宽??度xH高度)。然后连接特征图
本文编号:3435617
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:77 页
【学位级别】:硕士
【部分图文】:
图3-1?DenseNetM结构图??
?3.2.1网络结构图??下面是网络模型的结构图,图像描述模型的结构如图3-2所示,其中包括了三个??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用来对输入图像进行抽象表示,Decoder主要是LSTM,将Encoder的??结果(图像特征图)转换为对应的句子。而两者的连接部分就是“Visual?Attention??Switch”,具体的结构如图3-3所示,能够根据不同的输入词汇将注意力转换到对应??的图像部分,使得生成的图像描述句子语义信息更加丰富。下一节结合公式来具体??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??图3-2网络结构模型。本文使用DenseNet来从输入图像中抽取深度特征图(C通道xW宽??度xH高度)。然后连接特征图
?3.2.1网络结构图??下面是网络模型的结构图,图像描述模型的结构如图3-2所示,其中包括了三个??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用来对输入图像进行抽象表示,Decoder主要是LSTM,将Encoder的??结果(图像特征图)转换为对应的句子。而两者的连接部分就是“Visual?Attention??Switch”,具体的结构如图3-3所示,能够根据不同的输入词汇将注意力转换到对应??的图像部分,使得生成的图像描述句子语义信息更加丰富。下一节结合公式来具体??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??图3-2网络结构模型。本文使用DenseNet来从输入图像中抽取深度特征图(C通道xW宽??度xH高度)。然后连接特征图
本文编号:3435617
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3435617.html