基于深度学习的自动生成图像描述方法研究

发布时间:2021-01-31 01:01
  随着数据规模和计算能力的飞速增长,基于数据和硬件的深度学习开始显示出独特的优势。作为一个有挑战性的人工智能领域,自动生成图像描述正受到越来越多的关注。作为计算机视觉与自然语言处理领域的综合性任务,自动生成图像描述可以完成从图像到文本的转换,即算法可以根据输入图像自动生成相应的描述性语句。使计算机可以描述视觉世界带来了广泛的应用,如信息检索、人机交互、儿童教育、为视障人士提供帮助等。传统的自动生成图像描述方法包括基于模板的方法和基于检索的方法,但这些方法有一定的局限性,无法适用于新的场景,与人类描述的相关性较差。本文使用深度学习的方法,设计了基于编码器-解码器结构的自动生成图像描述模型。用扩展的深度卷积神经网络作为编码器提取图像特征,用长短期记忆网络生成描述性句子。本文对于端到端的自动生成图像描述模型展开研究,主要工作如下:1.对深度卷积神经网络进行改进,保持超参数数量不变的情况下提高其准确性。传统的提高卷积神经网络精度的方法是增加其深度,但是,随着超参数数量的增加,网络设计的难度和计算开销也会增大。受到Inception模块的多支路机制的启发,本文设计了基于Resnet的高度模块化的卷... 

【文章来源】:北方工业大学北京市

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

基于深度学习的自动生成图像描述方法研究


自动生成图像描述模型测试界面图

对比图,数据集,模型


第五章实验结果与分析42MSCOCO的学习率初始化为0.0005。图5-3、图5-4和图5-5是我们提出的模型与谷歌的NIC模型在BLEU评价指标上的得分情况,通过在不同数据集上的比较得出本文提出的模型在MSCOCO数据集上的评价指标分数提升更为明显。例如在Flickr8k数据集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO数据集上,本文提出的模型比NIC模型的分数提升15.02%。该结果表明在采用大规模的数据集训练本文模型的情况下,增加感受野的方式在更大的数据集中能够获得更多的图像信息,从而有效的提升模型训练效果。图5-3基于Flickr8k数据集的评估结果对比图5-4基于Flickr30k数据集的评估结果对比

对比图,数据集,模型


第五章实验结果与分析42MSCOCO的学习率初始化为0.0005。图5-3、图5-4和图5-5是我们提出的模型与谷歌的NIC模型在BLEU评价指标上的得分情况,通过在不同数据集上的比较得出本文提出的模型在MSCOCO数据集上的评价指标分数提升更为明显。例如在Flickr8k数据集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO数据集上,本文提出的模型比NIC模型的分数提升15.02%。该结果表明在采用大规模的数据集训练本文模型的情况下,增加感受野的方式在更大的数据集中能够获得更多的图像信息,从而有效的提升模型训练效果。图5-3基于Flickr8k数据集的评估结果对比图5-4基于Flickr30k数据集的评估结果对比


本文编号:3009916

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3009916.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户553d9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com