当前位置:主页 > 科技论文 > 自动化论文 >

课程学习在场景文字识别任务中的应用研究

发布时间:2021-04-18 14:29
  场景文字识别一直是一个极具挑战性的问题,理解场景文字的内容在交通,社交,定位等领域都有着巨大的应用价值,已然成为当前研究的热点。但是由于场景文字识别不同于传统意义上的文档文字识别,文字表现形式丰富,存在着遮挡、弯曲、艺术字等问题严重影响到模型对字符特征的准确提取,识别率始终不尽人意。为了得到字符识别率更高的深度学习模型,人们采用去改变模型的网络结构、损失函数,对图片中扭曲的字符进行修正等等方式。但不同于以往的工作,本文采用分类问题中取得显著成果的课程学习方法,改变原有随机从数据集中选取样本训练的方式,以难度提升的样本顺序训练模型,提升了当前主流场景文字识别算法的效果。与传统的训练方式相比,使用课程学习方法训练场景文字识别模型,可以使得模型在训练初期学习到更加精确的特征,加快了模型的收敛速度,并且最终在测试集上得到更高的字符识别准确率。使用课程学习方法,需要解决两个问题:如何定义数据集样本的难度,在得到数据集样本的难度后如何训练模型。围绕这两个关键问题,本文主要工作如下:(1)提出了使用预训练模型定义场景文字图片难度的办法,并对比使用不同数据集子集参数配置训练模型的结果。该方法首先对Sy... 

【文章来源】:河南大学河南省

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

课程学习在场景文字识别任务中的应用研究


卷积操作示意图

示意图,示意图,链接,卷积


第2章相关工作9图2-2池化操作示意图假设池化层输入图像尺寸为W×H,其中W为图像的宽,H为图像的高,池化卷积核的尺寸为(F×F),S为步长,那么经过池化操作后的图像宽高大小计算公式如(2-3)所示。()()1WHFWHS(2-3)2.1.3全链接层全链接层通常处于卷积神经网络的最后一层,其作用是对于前部网络提取的特征进行加权处理。全连接层的结构就如同它名命名一般,会将本层的神经元与前一层的所有神经元相连,这也意味着全链接这种结构将具有最多的参数,与此同时也占用更多的内存空间。假设我们把卷积层、激活函数、池化层的作用理解为将原始数据映射到隐层特征空间,那么全链接层的意义是在于将提取的特征映射到样本标记空间。简单全链接层网络结构示意如图(2-3)所示。图2-3全链接网络示意图

示意图,链接,示意图,卷积


第2章相关工作9图2-2池化操作示意图假设池化层输入图像尺寸为W×H,其中W为图像的宽,H为图像的高,池化卷积核的尺寸为(F×F),S为步长,那么经过池化操作后的图像宽高大小计算公式如(2-3)所示。()()1WHFWHS(2-3)2.1.3全链接层全链接层通常处于卷积神经网络的最后一层,其作用是对于前部网络提取的特征进行加权处理。全连接层的结构就如同它名命名一般,会将本层的神经元与前一层的所有神经元相连,这也意味着全链接这种结构将具有最多的参数,与此同时也占用更多的内存空间。假设我们把卷积层、激活函数、池化层的作用理解为将原始数据映射到隐层特征空间,那么全链接层的意义是在于将提取的特征映射到样本标记空间。简单全链接层网络结构示意如图(2-3)所示。图2-3全链接网络示意图


本文编号:3145634

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3145634.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户011a5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com