基于Faster R-CNN和视觉注意的图像描述生成研究
发布时间:2021-12-24 06:47
在人工智能领域,图像描述任务的目标是将给定的一张图像输入机器中,机器能够生成符合人类表达的自然、流畅的语言。这对人们来说是非常简单的,但是对于机器而言却是极其困难,它不仅仅需要机器能够准确识别图像中所包含的目标,还需要捕捉目标的属性以及目标间的动作关系。因此图像描述任务一直也是计算机视觉和自然语言处理领域的研究热点。近年来,受机器翻译任务的启发,视觉注意力机制已经被广泛地应用在图像描述任务中。然而,对于背景复杂的图像,大多数模型生成的描述语句质量不高,甚至出现与图像内容毫不相关的问题。另外大多数方法都强制对生成的每个单词进行主动的视觉注意,然而,解码器可能不需要关注图像中的任何视觉信息就可以生成非视觉单词,比如“the”和“of”等非语义信息的单词在图像中并没有与之对应的区域,解码器只需要依赖于语言模型就可以生成非语义单词。最后传统图像描述任务中常常会面临曝光偏差问题,同时大多数模型在训练时都是采用交叉熵损失,而在测试时采用自然语言处理领域中的评价机制来衡量模型,出现度量不一致的问题。本文主要的研究内容如下:1、设计了一种结合自底向上和自上而下注意机制的图像描述模型。在自底向上注意模型...
【文章来源】:天津职业技术师范大学天津市
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
生物神经元结构
天津职业技术师范大学硕士学位论文6心理学家McCulloch和数学家Pitts两人基于生物神经元的工作原理提出了一种数学模型,称为M-P模型。其结构模型如图2-2所示。M-P模型的基本思想是首先按照生物神经元的结构和工作原理构造出人工神经元作为模型中的输入神经元,在t时刻某一神经元接受输入神经元传递的信号,然后将接收到信号根据权重累加整合得到总输入值,最后将总输入值与神经元的阈值比较大小,只有当总输入值大于神经元的阈值时,这个神经元才会在t+1时刻被激活,最后再通过一个激活函数得到神经元的输出。图2-2M-P神经元模型M-P神经元模型的输出过程可以表示为:z=i=1n+b(2-1)其中净输入zR,表示一个神经元对全部输入信号的加权和,表示输入信号,代表模型中不同的权重值。令X=[1,,,]表示输入向量,令W=[1,w,,w]表示权重向量,则上式可以简化为z=WTX+b(2-2)为了将净输入z转换为非线性输出,需要引入一个激活函数f(·),此时得到的神经元活性值(Activation)α为α=f(2-3)M-P模型在很多方面都体现出生物神经元重要的特性。M-P模型通过模拟单个神经元的激活和抑制两种状态,可以对单个神经元执行逻辑运算,这也开创了人工神经网络理论研究的新时代。学习机制对于人工智能的重要性是不言而喻的,但是M-P模型却缺乏学习机制。心理学家Hebb认为神经元之间的突触连接强度不会是一个固定不变的常数,而是会随突触前神经元的活动而不断变化。后来随着人工神经网络的进一步发展,1957年康奈尔大学心理学教授FrankRosenblatt基于M-P模型提出了感知器模型。如图2-3所示,它是由输入层和输出层两层神经元组成。这是首个通过人工算法模拟人类感知能力的神经网络模型。
天津职业技术师范大学硕士学位论文7图2-3感知机网络模型感知机模型定义为fx=signwx+b(2-4)其中x∈XR,表示从外界接受到的输入信号,f(x)为模型的输出。模型参数w∈Rn是网络模型中神经元之间的权值(weight),b∈R是偏置(bias)。sign是阶跃函数,又称作符号函数。其函数表达式为sign(x)=+1,x≥01,x<0(2-5)模型最终的输出值为0或1,实现了简单的逻辑运算。感知机的训练过程如表2-1所示。表2-1感知机训练过程算法2-1感知机训练输入:给定的训练数据集T={(x1,y1),(x,y),,(x,y)}和学习率η。输出:f(x)=sign(wx+b)。步骤:(1)初始化权重w和b;(2)在训练集随机选取数据(x,y);(3)如果有y(wx+b)≠0,则w=w+ηxb=b+ηy(4)重复步骤(2)和步骤(3),直至模型收敛。从训练过程中可以看出,每发现一个训练实例被错误分类,则会相应的调整w和b的
【参考文献】:
硕士论文
[1]基于生成对抗网络的图像自动文本标注方法研究[D]. 吕凡.苏州科技大学 2018
[2]基于递归网络的图文标注算法研究[D]. 廖启俊.华南理工大学 2017
[3]面向图像描述的深度神经网络模型研究[D]. 陈强普.重庆大学 2017
本文编号:3550007
【文章来源】:天津职业技术师范大学天津市
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
生物神经元结构
天津职业技术师范大学硕士学位论文6心理学家McCulloch和数学家Pitts两人基于生物神经元的工作原理提出了一种数学模型,称为M-P模型。其结构模型如图2-2所示。M-P模型的基本思想是首先按照生物神经元的结构和工作原理构造出人工神经元作为模型中的输入神经元,在t时刻某一神经元接受输入神经元传递的信号,然后将接收到信号根据权重累加整合得到总输入值,最后将总输入值与神经元的阈值比较大小,只有当总输入值大于神经元的阈值时,这个神经元才会在t+1时刻被激活,最后再通过一个激活函数得到神经元的输出。图2-2M-P神经元模型M-P神经元模型的输出过程可以表示为:z=i=1n+b(2-1)其中净输入zR,表示一个神经元对全部输入信号的加权和,表示输入信号,代表模型中不同的权重值。令X=[1,,,]表示输入向量,令W=[1,w,,w]表示权重向量,则上式可以简化为z=WTX+b(2-2)为了将净输入z转换为非线性输出,需要引入一个激活函数f(·),此时得到的神经元活性值(Activation)α为α=f(2-3)M-P模型在很多方面都体现出生物神经元重要的特性。M-P模型通过模拟单个神经元的激活和抑制两种状态,可以对单个神经元执行逻辑运算,这也开创了人工神经网络理论研究的新时代。学习机制对于人工智能的重要性是不言而喻的,但是M-P模型却缺乏学习机制。心理学家Hebb认为神经元之间的突触连接强度不会是一个固定不变的常数,而是会随突触前神经元的活动而不断变化。后来随着人工神经网络的进一步发展,1957年康奈尔大学心理学教授FrankRosenblatt基于M-P模型提出了感知器模型。如图2-3所示,它是由输入层和输出层两层神经元组成。这是首个通过人工算法模拟人类感知能力的神经网络模型。
天津职业技术师范大学硕士学位论文7图2-3感知机网络模型感知机模型定义为fx=signwx+b(2-4)其中x∈XR,表示从外界接受到的输入信号,f(x)为模型的输出。模型参数w∈Rn是网络模型中神经元之间的权值(weight),b∈R是偏置(bias)。sign是阶跃函数,又称作符号函数。其函数表达式为sign(x)=+1,x≥01,x<0(2-5)模型最终的输出值为0或1,实现了简单的逻辑运算。感知机的训练过程如表2-1所示。表2-1感知机训练过程算法2-1感知机训练输入:给定的训练数据集T={(x1,y1),(x,y),,(x,y)}和学习率η。输出:f(x)=sign(wx+b)。步骤:(1)初始化权重w和b;(2)在训练集随机选取数据(x,y);(3)如果有y(wx+b)≠0,则w=w+ηxb=b+ηy(4)重复步骤(2)和步骤(3),直至模型收敛。从训练过程中可以看出,每发现一个训练实例被错误分类,则会相应的调整w和b的
【参考文献】:
硕士论文
[1]基于生成对抗网络的图像自动文本标注方法研究[D]. 吕凡.苏州科技大学 2018
[2]基于递归网络的图文标注算法研究[D]. 廖启俊.华南理工大学 2017
[3]面向图像描述的深度神经网络模型研究[D]. 陈强普.重庆大学 2017
本文编号:3550007
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3550007.html
最近更新
教材专著