多主题的图像摘要生成方法研究

发布时间:2021-01-14 23:15
  图像描述生成任务(Image Caption)是一个融合了计算机视觉(CV)和自然语言处理(NLP)的综合类问题,可以简单的理解为将输入的图像翻译成关于图像内容的描述的过程。实现该任务对于机器来说具有一定的挑战性,需要将这一大问题划分为以下几个子任务:(1)识别图中目标对象;(2)找到目标对象之间的联系;(3)用自然语言陈述图像表达内容。其中理解目标对象之间的联系,并且用自然语言描述出来是实现图像描述生成任务中的重难点。该任务的应用场景非常广泛,一般是给照片匹配文字,即用户拍了一张照片,利用图像描述生成技术可以匹配到合适的文字,对于用户来说既方便检索,又省去了用户手动配文字的时间。又或者应用在帮助视觉障碍者理解图像内容等等。迄今为止,常见的图像描述生成方法大致可以分为三大类,其中基于神经网络的是最准确,研究价值最高的图像描述生成方法。基于神经网络的图像描述生成方法一般采用编码解码结构,当利用解码器Decoder对中间编码生成词序列时,通常仅考虑训练文本的词分布,假定了在任何主题下的词分布都是一致的,并没有考虑主题对词分布的影响,导致解码器拟合了一般意义上的词分布。事实上,不同主题下的词... 

【文章来源】:辽宁大学辽宁省 211工程院校

【文章页数】:70 页

【学位级别】:硕士

【部分图文】:

多主题的图像摘要生成方法研究


CNN结构

多主题的图像摘要生成方法研究


LSTM结构

多主题的图像摘要生成方法研究


GoogleNIC结构


本文编号:2977737

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2977737.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户74699***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com