多主题的图像摘要生成方法研究
发布时间:2021-01-14 23:15
图像描述生成任务(Image Caption)是一个融合了计算机视觉(CV)和自然语言处理(NLP)的综合类问题,可以简单的理解为将输入的图像翻译成关于图像内容的描述的过程。实现该任务对于机器来说具有一定的挑战性,需要将这一大问题划分为以下几个子任务:(1)识别图中目标对象;(2)找到目标对象之间的联系;(3)用自然语言陈述图像表达内容。其中理解目标对象之间的联系,并且用自然语言描述出来是实现图像描述生成任务中的重难点。该任务的应用场景非常广泛,一般是给照片匹配文字,即用户拍了一张照片,利用图像描述生成技术可以匹配到合适的文字,对于用户来说既方便检索,又省去了用户手动配文字的时间。又或者应用在帮助视觉障碍者理解图像内容等等。迄今为止,常见的图像描述生成方法大致可以分为三大类,其中基于神经网络的是最准确,研究价值最高的图像描述生成方法。基于神经网络的图像描述生成方法一般采用编码解码结构,当利用解码器Decoder对中间编码生成词序列时,通常仅考虑训练文本的词分布,假定了在任何主题下的词分布都是一致的,并没有考虑主题对词分布的影响,导致解码器拟合了一般意义上的词分布。事实上,不同主题下的词...
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
CNN结构
LSTM结构
GoogleNIC结构
本文编号:2977737
【文章来源】:辽宁大学辽宁省 211工程院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
CNN结构
LSTM结构
GoogleNIC结构
本文编号:2977737
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2977737.html
最近更新
教材专著