基于视觉学习的算术运算模型的研究与实现

发布时间:2021-03-11 05:51
  视觉逻辑学习是计算机视觉学习的一个重要组成部分,它直接从给定的图像的信息中学习逻辑推理模式。视觉逻辑学习在许多应用领域(如,制造业、医疗诊断、智能交通导航、军事等领域)的各种智能/自主系统中发挥了关键作用。算术运算学习是视觉逻辑学习中的一个典型任务,该任务旨在学习输入图像和输出图像之间的算术运算关系。本文主要研究和实现了基于视觉学习的算术运算模型。首先将基于视觉学习的算术运算任务转换为一个回归问题,即创建一个算术运算模型使得预测图像和真实图像的差异最小;其次提出了一种基于多标签的算术运算模型,该模型使用算术运算中进位/借位的计算策略来降低算术运算模型的学习难度,从而有效提升了模型的性能。多标签模型在原有的算术运算模型上增加了含进位/借位标签和无进位/借位标签,将算术运算模型拆分为如下三个子模型:含进位/借位模型、无进位/借位模型以及合成模型。对于不同的子模型采用了不同的网络模型,其中含进位/借位模型和无进位/借位模型均使用了长短期记忆神经网络和卷积神经网络相结合的网络模型,但两个子模型的网络结构存在一定的差异,而合成模型使用了全连接神经网络模型。进一步在特定的数据集中,验证了多标签模型... 

【文章来源】:西安石油大学陕西省

【文章页数】:61 页

【学位级别】:硕士

【部分图文】:

基于视觉学习的算术运算模型的研究与实现


解决基于视觉学习的算术运算任务的方法其一随着计算机软硬件和深度神经网络的发展,计算机已经可以实现端到端地学习

流程图,算术,视觉,方法


西安石油大学硕士学位论文2务。一般的感知子任务包括对象识别和分割,认知子任务包括语言建模和翻译。如图1-1为目前比较流行、认可的解决基于视觉学习的算术运算任务的流程图。图1-1解决基于视觉学习的算术运算任务的方法其一随着计算机软硬件和深度神经网络的发展,计算机已经可以实现端到端地学习。例如,Vinyals等人[12]将端到端训练用于图像到句子的生成;Hannun等人[13]利用端到端训练将图像生成语音。因此,解决此类问题的第二种方法也应运而生了。即使用端对端学习的思想将传统的两个子任务同时放入一个模型中进行操作,也就是说,在一个模型中同时完成感知和认知任务,这意味着学习模型必须隐含地学习图像中的符号之间的关系,而无需事先定义他们的含义。毫无疑问,第二种方法比第一种方法难度更大,更加复杂。图1-2为采用端到端模型来解决基于视觉学习的算术运算任务的一般流程。图1-2解决基于视觉学习的算术运算任务的方法其二1.2国内外研究现状早在1998年Franco和Cannas等人[14]就验证了二进制数的基本算术运算可以使用深度神经网络学习的可行性。他们设计出了最优的前馈多层网络结构,用于执行不同的二进制的基本算术运算,例如位移、两个n位数字的加法和乘法运算。2014年,Graves等人[15]通过使用注意力程序进行交互的外部存储器,增强了神经网络的性能。其提出新系统中的每个组件都是可微的,并使用梯度下降高效地进行训练。最终的实验结果表明,神经网络可以从输入和输出样本中推断出简单的逻辑,例如,排序。随着人们对神经网络更加深入的研究和硬件设施性能不断的提高。研究员们提出了许多高性能的网络模型

时间序列,算术,视觉,图像


西安石油大学硕士学位论文4入为x输出为y,其中,....}3,2,1),,(|{21ixxxxxiiii,y表示两输入操作数的算术运算结果值。输入和输出的之间的逻辑关系(加法、减法以及乘法运算)表示为R,而本文的目标则是y和y之间loss值(均方根误差)最小,其中y为预测输出图像。图1-3基于视觉学习的算术运算任务图需要指出的是,这里的输出和输入都是直接使用图像进行表示。而且在算术运算模型的训练前不能对数据进行数字分割、数字识别等任何的感知子任务。这就使得算术运算模型不仅要学习感知子任务,而且要总结得到输入的两图像中所嵌入数字的算术运算关系。众所周知,在两张嵌有数字的图像中,若是存在十几个甚至几个像素点的差异时,两张图像就会呈现出不同的结果。因为算术运算模型的输出是直接使用图像进行表示,所以若要得到正确的预测图像,则需要保证模型有足够高的计算精度。图1-4基于视觉学习的算术运算帧预测任务图本研究课题也可视为帧间预测的问题如图1-4所示。给定一个时间序列321,,ttt,而1tmf,2tmf,3tmf分别表示为其时间序列上所对应的单帧图像,其中,m...3,2,1为训练样本数。本课题研究的内容就是,给出第一帧1tmf和第二帧2tmf的单帧图像,得到视频的第三帧的预测单帧图像3tmf,课题研究的目标就是使得3tmf和3tmf的均方根误差值(loss)最小,即预测得出的单帧图像无限接近真实的单帧图像。此时,算术运算模型的输出使用单帧图像进行表示,但其输入应为,tcnmf),,,(tm,其中m和n代表了视频的尺寸大小,c是表示单帧图像的通道数,t则是时间序列。在使用视频帧预测的研究思路去解决基于视觉学习的算术运算任务时,由于视频帧训练样本的时间序列太短只可以使用两个时刻的单帧图像进行训练,而且在训练样本视频中每

【参考文献】:
期刊论文
[1]深度学习在计算机视觉分析中的应用[J]. 马俊.  电子技术与软件工程. 2019(07)
[2]循环神经网络研究综述[J]. 杨丽,吴雨茜,王俊丽,刘义理.  计算机应用. 2018(S2)
[3]视觉问答技术研究[J]. 俞俊,汪亮,余宙.  计算机研究与发展. 2018(09)
[4]可解释化、结构化、多模态化的深度神经网络[J]. 熊红凯,高星,李劭辉,徐宇辉,王涌壮,余豪阳,刘昕,张云飞.  模式识别与人工智能. 2018(01)
[5]计算机视觉研究综述[J]. 倪晨旭.  电子世界. 2018(01)
[6]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军.  计算机学报. 2017(06)
[7]不同池化模型的卷积神经网络学习性能研究[J]. 刘万军,梁雪剑,曲海成.  中国图象图形学报. 2016(09)
[8]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航.  计算机应用. 2016(09)
[9]深度学习中的无监督学习方法综述[J]. 殷瑞刚,魏帅,李晗,于洪.  计算机系统应用. 2016(08)
[10]图像理解中的卷积神经网络[J]. 常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.  自动化学报. 2016(09)

博士论文
[1]基于流形的降维方法及其在计算机视觉中的应用[D]. 黄东.电子科技大学 2009
[2]基于计算机视觉的检测方法与应用研究[D]. 漆随平.浙江大学 2005



本文编号:3075972

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3075972.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ac777***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com