基于深度学习的图像描述模型研究及应用
发布时间:2021-03-30 23:57
近年来图像描述生成技术逐渐成为一个新的研究热点。图像描述主要是研究通过机器理解图像内容并生成描述文本的方法。然而,图像的机器解读常常会受到图像自身背景等非显著性信息干扰,使得图像描述容易产生偏差。本文提出了一种多重注意力的图像描述模型,采用Faster rcnn提取图像特征作为编码层,用多重的注意力模型LSTM-Attend进行解码,生成描述文本,并采用强化学习中的策略梯度优化来对模型中的参数进行优化,模型在常规图像数据集的实验结果验证了模型具有很好的图像理解和描述文本生成能力,生成文本效果优于目前流行的同类模型。此外,针对医学图像诊断文本生成领域中的深度学习训练过程中容易出现信息遗忘和损失的情况,本论文搭建了一个多模态汇聚层有效地将医学图像信息和文本信息进行融合,并在此基础上提出一种反复回看的图像描述方法,在encoder-decoder框架上,将医疗图像抽象为向量化的表达,作为解码层LSTM的初始向量,同时在解码的过程中,采用多模汇聚方式,该模型在X射线医疗影像数据集上验证了模型的有效性,与当前同类模型相比,具有更好的性能。本文所提出的两个基于图像描述生成的深度学习模型,分别在常规...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
AttentionMechanism模块图解
图 3-2 anchor 提取示意图0*40 的 map 进行滑窗时,以中心像素为基点构造600 图像中,映射比例为 16 倍。那么总共可以得因为有很多重叠的框。文章通过非极大值抑制的方nion)为 0.7 的阈值,即仅保留覆盖率不超过 0.7 的最后留下大约 2000 个 anchor,然后再取前 N 个 的输出候选区域作为检测网络的输入。具体而言选框截取原图像,并将截取后的图像通过几次 cg和FC再输出两条支路,一条是目标分类softmax, 将输出 300 个判定类别及其 box,对类别分数采用筛),并仅取分数大于某个分数的目标结果。具
r 数据集kr 数据集包含 Flickr8K 和 Flickr30K 两种。Flickr30K 数据集的图像数的相册网站 Flickr,数据集中图像的数量分别是 8,000 张和 31,783 张库中的图像大多展示的是人类在参与到某项活动中的情景。每张图标注依旧是 5 句话。这两个数据库是采用同种方式收集和标注的,语法比较类似。数据库也是按照标准的训练集、验证集合测试集来相较于 MS COCO Caption 数据集,Flickr8K 和 Flickr30K 数据集的明其数据量不足。但是最早也被用于图像描述的相关研究中。hallenge 中文数据集challenge 比赛构建了图像中文描述数据库,便于参赛者可以构建 模型。这个中文数据集包括了训练数据集,共有 210,000 张图像和其述,验证数据集包括了 30,000 张图像和其对应的中文描述。每一张5 个相近语义的中文描述,用一句话描述给定图像中的主要信息,挑的图像理解问题。尝试自然语言处理与计算机视觉技术结合的力量可由图 5-1 为例:
本文编号:3110381
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
AttentionMechanism模块图解
图 3-2 anchor 提取示意图0*40 的 map 进行滑窗时,以中心像素为基点构造600 图像中,映射比例为 16 倍。那么总共可以得因为有很多重叠的框。文章通过非极大值抑制的方nion)为 0.7 的阈值,即仅保留覆盖率不超过 0.7 的最后留下大约 2000 个 anchor,然后再取前 N 个 的输出候选区域作为检测网络的输入。具体而言选框截取原图像,并将截取后的图像通过几次 cg和FC再输出两条支路,一条是目标分类softmax, 将输出 300 个判定类别及其 box,对类别分数采用筛),并仅取分数大于某个分数的目标结果。具
r 数据集kr 数据集包含 Flickr8K 和 Flickr30K 两种。Flickr30K 数据集的图像数的相册网站 Flickr,数据集中图像的数量分别是 8,000 张和 31,783 张库中的图像大多展示的是人类在参与到某项活动中的情景。每张图标注依旧是 5 句话。这两个数据库是采用同种方式收集和标注的,语法比较类似。数据库也是按照标准的训练集、验证集合测试集来相较于 MS COCO Caption 数据集,Flickr8K 和 Flickr30K 数据集的明其数据量不足。但是最早也被用于图像描述的相关研究中。hallenge 中文数据集challenge 比赛构建了图像中文描述数据库,便于参赛者可以构建 模型。这个中文数据集包括了训练数据集,共有 210,000 张图像和其述,验证数据集包括了 30,000 张图像和其对应的中文描述。每一张5 个相近语义的中文描述,用一句话描述给定图像中的主要信息,挑的图像理解问题。尝试自然语言处理与计算机视觉技术结合的力量可由图 5-1 为例:
本文编号:3110381
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3110381.html