多主题的图像摘要生成方法研究

发布时间：2021-01-14 23:15

　　图像描述生成任务（Image Caption）是一个融合了计算机视觉（CV）和自然语言处理（NLP）的综合类问题,可以简单的理解为将输入的图像翻译成关于图像内容的描述的过程。实现该任务对于机器来说具有一定的挑战性,需要将这一大问题划分为以下几个子任务:（1）识别图中目标对象;（2）找到目标对象之间的联系;（3）用自然语言陈述图像表达内容。其中理解目标对象之间的联系,并且用自然语言描述出来是实现图像描述生成任务中的重难点。该任务的应用场景非常广泛,一般是给照片匹配文字,即用户拍了一张照片,利用图像描述生成技术可以匹配到合适的文字,对于用户来说既方便检索,又省去了用户手动配文字的时间。又或者应用在帮助视觉障碍者理解图像内容等等。迄今为止,常见的图像描述生成方法大致可以分为三大类,其中基于神经网络的是最准确,研究价值最高的图像描述生成方法。基于神经网络的图像描述生成方法一般采用编码解码结构,当利用解码器Decoder对中间编码生成词序列时,通常仅考虑训练文本的词分布,假定了在任何主题下的词分布都是一致的,并没有考虑主题对词分布的影响,导致解码器拟合了一般意义上的词分布。事实上,不同主题下的词...

【文章来源】：辽宁大学辽宁省 211工程院校

【文章页数】：70 页

【学位级别】：硕士

【部分图文】：

多主题的图像摘要生成方法研究

CNN结构

多主题的图像摘要生成方法研究

LSTM结构

多主题的图像摘要生成方法研究

GoogleNIC结构

本文编号：2977737

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/2977737.html

上一篇：基于胶囊内窥镜影像的小肠疾病检测算法研究
下一篇：基于高级语义的通用型文本生成迁移学习

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|