基于多层次选择性视觉语义属性特征的图像中文描述生成算法
发布时间:2023-03-20 00:06
图像描述是一项集机器学习、计算机视觉和自然语言处理于一体的跨模态任务。该任务要求算法模型能够对视觉和语言两种不同模态的信息进行转换。当前大多数研究主要集中在图像的英文描述,而对图像中文描述的研究相对较少。目前大多数方法过分依赖于语言模型,缺乏对图像视觉信息的足够关注。如何根据中文特点应用视觉语义特征,论文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法专注于学习图像高层视觉语义对应的中文属性信息,结合目标检测和注意力机制,形成多层次、多粒度的属性上下文表示,能够丰富描述语句的表述内容和实现视觉-语义的有效关联。该算法已在当前中文图像描述数据量最大最完善的AI Challenger2017图像中文描述数据集和广泛使用的Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法较现阶段主流图像描述算法在各项评价指标上均有约3%-30%的较大幅度提升。实际生成效果也显示,该算法能够为图像生成准确、丰富、相对比较生动的中文描述。相关源代码和模型已在github公开。
【文章页数】:44 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题背景及研究意义
1.2 国内外研究现状
1.3 本文的主要研究内容和创新点
2 模型整体框架
2.1 端到端(编码-解码)图像描述模型结构
2.2 中文标注数据预处理
2.3 图像中文描述整体框架
3 基于卷积神经网络和目标检测的多层次多粒度图像特征提取
3.1 卷积神经网络
3.1.1 卷积神经网络原理(发展,基本结构)
3.1.2 主流卷积神经网络模型
3.2 图像底层视觉特征检测器
3.3 图像高层属性特征检测器
3.3.1 高层语义属性词表构建
3.3.2 基于多标签分类的图像高层属性特征检测器
3.4 目标检测
3.4.1 目标检测技术概述
3.4.2 基于深度学习的目标检测
3.5 基于YOLO的多粒度图像高层属性特征检测器
3.5.1 YOLO目标检测算法
3.5.2 基于YOLO的多粒度图像高层属性特征检测器
4 基于循环神经网络和注意力机制的中文描述生成
4.1 循环神经网络
4.2 注意力机制
4.3 基于注意力机制LSTM的中文描述生成
5 模型实验与分析
5.1 数据集
5.1.1 AI Challenger2017 图像中文描述数据集
5.1.2 Flick8k-CN图像中文描述数据集
5.2 实验细节
5.3 评测指标
结论
参考文献
致谢
在读期间公开发表论文(著)及科研情况
本文编号:3766271
【文章页数】:44 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 绪论
1.1 课题背景及研究意义
1.2 国内外研究现状
1.3 本文的主要研究内容和创新点
2 模型整体框架
2.1 端到端(编码-解码)图像描述模型结构
2.2 中文标注数据预处理
2.3 图像中文描述整体框架
3 基于卷积神经网络和目标检测的多层次多粒度图像特征提取
3.1 卷积神经网络
3.1.1 卷积神经网络原理(发展,基本结构)
3.1.2 主流卷积神经网络模型
3.2 图像底层视觉特征检测器
3.3 图像高层属性特征检测器
3.3.1 高层语义属性词表构建
3.3.2 基于多标签分类的图像高层属性特征检测器
3.4 目标检测
3.4.1 目标检测技术概述
3.4.2 基于深度学习的目标检测
3.5 基于YOLO的多粒度图像高层属性特征检测器
3.5.1 YOLO目标检测算法
3.5.2 基于YOLO的多粒度图像高层属性特征检测器
4 基于循环神经网络和注意力机制的中文描述生成
4.1 循环神经网络
4.2 注意力机制
4.3 基于注意力机制LSTM的中文描述生成
5 模型实验与分析
5.1 数据集
5.1.1 AI Challenger2017 图像中文描述数据集
5.1.2 Flick8k-CN图像中文描述数据集
5.2 实验细节
5.3 评测指标
结论
参考文献
致谢
在读期间公开发表论文(著)及科研情况
本文编号:3766271
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3766271.html
最近更新
教材专著