基于自动限制损失的图像语义理解

发布时间:2025-03-20 04:41
  图像语义理解是计算机视觉,自然语言处理和机器学习领域中的一个基础问题。目的是将图片转换成一句能描述图片中对象及对象之间关系的句子。将复杂的图像特征转化为简单的语言描述在图像分类、图像检索、图像动作识别等领域中有较广泛的应用前景。近来,许多方法采用编码-解码框架,在训练阶段,使用当前时刻状态和前一时刻的目标单词预测当前的目标单词。在预测阶段,由于上一时刻的目标单词并不确定,而使用上一时刻模型输出的单词作为当前时刻的输入,造成了训练与预测阶段的不一致。当某一时刻生成的单词不够准确时,可能导致之后生成的单词有所偏差。因此,本文主要进行以下内容的研究:(1)由于编码-解码框架中存在训练和预测过程不一致的问题,本文分析了该问题对循环神经网络和注意力机制产生的影响,并提出了自动限制损失方法。该方法不同于将循环神经网络中每个时刻的损失简单相加,而是为每个时刻的损失设置了权重,使当前时刻的损失权重随着之前时刻单词错误率的减小而增加,从而减小了训练阶段和预测阶段的差异。(2)在自动限制损失方法中,采用之前时刻单词的准确率控制之后时刻单词的损失权重,可能会忽略之前时刻目标单词的近义词或同义词对损失权重更新产...

【文章页数】:63 页

【学位级别】:硕士

【部分图文】:

图2.1图像语义理解步骤

图2.1图像语义理解步骤

图像语义理解的主要步骤包括:数据预处理、提取图像特征、设计生成模型、生成结果的评价与分析,如图2.1所示:(1)数据预处理。


图2.2人工神经网络结构

图2.2人工神经网络结构

在图像语义理解模型中,常用作编码器的卷积神经网络有Alexnet[33]、VGGnet[12]、GoogleNet[13]、Resnet[11]等。(1)Alexnet


图2.3几种不同的inception结构

图2.3几种不同的inception结构

2015年,微软研究员的KaimingHe等人成功训练了152层深的神经网络,在ILSVRC2015比赛中获得了冠军,取得了3.57%的top-5错误率。ResNet的参数量比VGGNet更低,效果却非常突出。该文章发现,随着网络的加深,出现了训练集准确率下降的现象,且这不是由....


图2.4残差结构

图2.4残差结构

在用3×3的卷积核计算前后,用1×1的卷积核对输入和输出进行升降维,保持维度一直。该结构能在梯度反向传播时更快的到达更浅的层,解决了网络层次较深无法训练的问题,并取得了非常好的效果。该模型侧面反应了,在深度学习中,更深比更宽重要。2.2.2解码器



本文编号:4037402

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4037402.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c54d2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com