基于视觉特征的二维图像文本描述生成关键算法研究
发布时间:2024-02-19 16:09
二维图像文本描述生成是人工智能领域的一个热门研究,是指利用机器学习、深度学习等方法和技术,生成能够描述图像视觉内容的文本语言,涉及了计算机视觉和自然语言处理。基于视觉特征的二维图像文本描述生成关键算法研究旨在通过特征提取、特征融合、语言生成等算法和技术,生成完整的、符合语法结构的文本句子,准确地描述出二维图像的视觉内容。二维图像文本描述生成对于场景理解具有重要意义,人类的交流过程大多依赖于自然语言,使计算机能够描述我们的视觉世界将会导致大量可能的应用,如图像检索、语义视觉搜索;人机交互中的视障辅助;智能监控中的道路监控等。近年来,虽然该领域的研究取得了长足的进步;但是仍然存在着一些亟待解决的问题,表现在以下几个方面:(1)已有研究中仅考虑使用图像层次的特征或粗粒度的属性特征,造成重要判别信息的损失。在基于注意力机制的二维图像文本描述生成方法中,注意力机制作为特征融合算法能够充分发挥作用的前提是已提取足够的视觉特征;而在基于属性的图像文本描述生成方法中使用的通常是粗粒度的属性特征。忽略了目标特征和细粒度属性信息的互补性。(2)已有研究中未考虑以粗粒度到细粒度的方式理解二维图像的视觉内容,...
【文章页数】:131 页
【学位级别】:博士
【部分图文】:
本文编号:3902969
【文章页数】:131 页
【学位级别】:博士
【部分图文】:
图1.3基于检索的图像文本描述生成方法示意图t16]??Fig.?1.3?Diagram?of?Retrieve-based?Method?for?Image?Description?Generatio?
图1.7稠密文本描述生成示意图W??Fig.?1.7?Diagram?of?Dense?Descriptions?Generation??
图1.8基于注意力的图像文本描述生成示意图[63]
图1.10语义概念示意图[89】??Fig.?1.10?Diagram?of?Semantic?Concepts??
本文编号:3902969
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3902969.html
最近更新
教材专著