融合局部语义信息的图像描述算法研究
发布时间:2021-08-29 11:03
图像描述技术能够将图像转为文本,实现信息的跨模态转换,因此被广泛用人机对话、图文互搜、儿童教育及视力障碍人士的生活辅助等方面。随着通信技术的提升,图像数据开始在互联网中被大量发布及传播,如何自动化地用自然语言描述图像内容,成为当前一大研究热点。本文针对图像描述的自动化生成问题,从基于情感表征的方法、基于局部空间语义信息的方法、基于图像描述的情感分析方法等方面进行深入研究。本文的研究工作主要包括:(1)提出了一种基于情感表征的图像描述方法:本方法基于编码器-解码器模型,先使用多个神经网络模型进行图像特征提取,再使用长短期记忆网络进行句子生成。首先采用现有工具提取图中的情感表征(包括视觉语义和表情),及其对应的矩形边界框。随后将视觉语义信息与表情信息表示为向量,并将之映射到特定的维度,作为LSTM的附加输入并参与训练和预测,从而使生成的句子具有感情色彩并提升图像描述的准确性。实验结果表明本方法能够有效提升图像描述的准确性,并且能够使生成的句子更具感情色彩。(2)提出了一种基于局部空间语义信息与全局信息的图像描述方法:首先使用现有的目标检测模型提取图像中存在的目标及其对应的矩形边界框,然后由...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1-1谷歌眼镜??
图2-2根据参考语句构建的语义依赖树??
图2-5卷积神经网络的计算方式??Figure2-5?calculation?of?convolutional?neural?network??
【参考文献】:
期刊论文
[1]LSTM逐层多目标优化及多层概率融合的图像描述[J]. 汤鹏杰,王瀚漓,许恺晟. 自动化学报. 2018(07)
本文编号:3370531
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图1-1谷歌眼镜??
图2-2根据参考语句构建的语义依赖树??
图2-5卷积神经网络的计算方式??Figure2-5?calculation?of?convolutional?neural?network??
【参考文献】:
期刊论文
[1]LSTM逐层多目标优化及多层概率融合的图像描述[J]. 汤鹏杰,王瀚漓,许恺晟. 自动化学报. 2018(07)
本文编号:3370531
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3370531.html
最近更新
教材专著