基于深度学习的实时四边形目标检测算法研究
发布时间:2021-11-25 23:51
现实生活中,很多四边形目标如屏幕、幻灯片、文档、白板等通常都是包含信息量丰富的信息载体。这些目标作为一种人造图形目标在生活、办公中被广泛应用。近年来,由于手机等移动设备得到了普及,用户通常使用手机对四边形目标进行拍照以保存目标中的内容,移动设备拍摄得到的图片能够便利的分享信息、整理保存。四边形目标检测的具体任务是将手机图片中四边形目标的四个角点检测出来,利用获取的四个角点的坐标,可将四边形目标截取出来得到比例合理的矩形图像。目前为止,针对四边形目标检测的问题,众多研究者提出了不同的算法方案。通常,这些算法都存在一定的局限性,如只能针对特定的四边形目标进行检测,或对背景的复杂度有限制。针对已有文献的这些问题,本文通过引入深度学习理论与方法,对实时四边形目标检测算法进行系统且深入的研究。本论文主要贡献如下:(1)针对四边形目标检测受四边形检测算法的影响这一现象,受高精度目标检测算法Faster RCNN的启发,设计一种二阶网络框架,其中算法框架的第一个阶段为使用深度学习算法生成轮廓图像,进而在轮廓图像中使用四边形检测算法检索出可能是目标的四边形,即四边形推荐,第二阶段将四边形推荐中的四边形...
【文章来源】:深圳大学广东省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
神经元模型èq
基于深度学习的实时四边形目标检测算法研究12()1iipiNpiee==p(2-11)与均方误差函数相比,虽然交叉熵函数无法应用于回归任务中,但是它在分类任务中的表现比均方误差函数更加优秀,因此也被广泛应用于神经网络的分类任务中。2.1.4神经网络整体结构一般的,多个神经元组成一个神经网络层,往往,一个神经网络包含三种层:“输入层”、“隐含层”和“输出层”,其中输入层神经元对应的输入只有一个并且没有权重和偏置。一个典型的神经网络结构如下:图2-3神经网络模型图2-3描述了一个简单的神经网络,它由一个输入层、一个隐含层、一个输出层所组成,每个层都有两个节点,网络接收长度为2的数组作为输入,输出也是一个长度为2的数组,在网络进行预测时,执行一个称作“前向传播”的过程,而在网络训练时,执行“反向传播”的过程,接下来,就这两个过程进行解释。前向传播,即网络输入层12inin接收数据12datadata,进行运算并输出结果向量12outout,这个结果向量既可以表示分类的结果,也可以表示回归预测中的数值。式(2-12)描述了一个全连接中由输入层到隐含层的前向传播的过程:111,11,211121211122,12,2wwnetnetfininbbww=+(2-12)式(2-12)中,输入层中的每一个值分别与每一个隐含层中的神经元相连,与连接该神经元上的权重1w相乘相加,加上偏置1b后经过激活函数即得到中间隐含层。该过程可以
基于深度学习的实时四边形目标检测算法研究14对单个卷积核的卷积操作来说,卷积的数学形式如下:i,ji+k,j+lk,lk,lg=fh(2-14)式(2-14)中,i,jf=f为卷积的输入单通道图像(矩阵),i,jg=g为卷积输出,k,lh=h为卷积核,k和l分别是卷积核的长和宽,i和j分别是卷积核移动在卷积图像上的横向和纵向的位置。由式(2-14)可以看出,卷积操作通过加权求和方式将一个区域的像素信息在特征图的一个对应位置上进行表示,下面以一个单通道卷积例子来说明一下这种操作的具体过程:图2-4卷积操作另外,卷积后的输出相比输入图像,尺寸在一定程度上被缩小了,这主要是由于卷积核的尺寸不允许卷积操作从输入图像的边缘开始,这种操作也称为“无填充”卷积,当我们需要卷积后的输出与卷积前尺寸相同时,通常的做法是提前将卷积的输入的四周补上若干行列的0值,如此卷积后的图像就能与卷积前的输入尺寸相统一,这种操作被称为“填充”卷积。另一方面,卷积中的“步长”,即卷积核每次移动时跨过的元素个数,也能够影响到卷积输出的尺寸。图2-4中展示的是无填充,步长为[1,1]的卷积方式。卷积操作可以起到收集图像特征的作用,下面将以一个单通道卷积核进行卷积操作的直观例子来讨论这种作用:
【参考文献】:
期刊论文
[1]动态规划算法在手机拍照文档图像中的应用[J]. 王茂森,牛少彰. 北京邮电大学学报. 2017(04)
[2]基于Harris角点的矩形检测[J]. 张从鹏,魏学光. 光学精密工程. 2014(08)
本文编号:3519027
【文章来源】:深圳大学广东省
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
神经元模型èq
基于深度学习的实时四边形目标检测算法研究12()1iipiNpiee==p(2-11)与均方误差函数相比,虽然交叉熵函数无法应用于回归任务中,但是它在分类任务中的表现比均方误差函数更加优秀,因此也被广泛应用于神经网络的分类任务中。2.1.4神经网络整体结构一般的,多个神经元组成一个神经网络层,往往,一个神经网络包含三种层:“输入层”、“隐含层”和“输出层”,其中输入层神经元对应的输入只有一个并且没有权重和偏置。一个典型的神经网络结构如下:图2-3神经网络模型图2-3描述了一个简单的神经网络,它由一个输入层、一个隐含层、一个输出层所组成,每个层都有两个节点,网络接收长度为2的数组作为输入,输出也是一个长度为2的数组,在网络进行预测时,执行一个称作“前向传播”的过程,而在网络训练时,执行“反向传播”的过程,接下来,就这两个过程进行解释。前向传播,即网络输入层12inin接收数据12datadata,进行运算并输出结果向量12outout,这个结果向量既可以表示分类的结果,也可以表示回归预测中的数值。式(2-12)描述了一个全连接中由输入层到隐含层的前向传播的过程:111,11,211121211122,12,2wwnetnetfininbbww=+(2-12)式(2-12)中,输入层中的每一个值分别与每一个隐含层中的神经元相连,与连接该神经元上的权重1w相乘相加,加上偏置1b后经过激活函数即得到中间隐含层。该过程可以
基于深度学习的实时四边形目标检测算法研究14对单个卷积核的卷积操作来说,卷积的数学形式如下:i,ji+k,j+lk,lk,lg=fh(2-14)式(2-14)中,i,jf=f为卷积的输入单通道图像(矩阵),i,jg=g为卷积输出,k,lh=h为卷积核,k和l分别是卷积核的长和宽,i和j分别是卷积核移动在卷积图像上的横向和纵向的位置。由式(2-14)可以看出,卷积操作通过加权求和方式将一个区域的像素信息在特征图的一个对应位置上进行表示,下面以一个单通道卷积例子来说明一下这种操作的具体过程:图2-4卷积操作另外,卷积后的输出相比输入图像,尺寸在一定程度上被缩小了,这主要是由于卷积核的尺寸不允许卷积操作从输入图像的边缘开始,这种操作也称为“无填充”卷积,当我们需要卷积后的输出与卷积前尺寸相同时,通常的做法是提前将卷积的输入的四周补上若干行列的0值,如此卷积后的图像就能与卷积前的输入尺寸相统一,这种操作被称为“填充”卷积。另一方面,卷积中的“步长”,即卷积核每次移动时跨过的元素个数,也能够影响到卷积输出的尺寸。图2-4中展示的是无填充,步长为[1,1]的卷积方式。卷积操作可以起到收集图像特征的作用,下面将以一个单通道卷积核进行卷积操作的直观例子来讨论这种作用:
【参考文献】:
期刊论文
[1]动态规划算法在手机拍照文档图像中的应用[J]. 王茂森,牛少彰. 北京邮电大学学报. 2017(04)
[2]基于Harris角点的矩形检测[J]. 张从鹏,魏学光. 光学精密工程. 2014(08)
本文编号:3519027
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3519027.html