当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的图像文字检测与识别的研究

发布时间:2021-08-24 02:22
  文字的检测与识别在实际生活中应用广泛,比如字符识别系统,名片识别系统,证件识别系统,交通管理中的汽车车牌识别系统等领域。随着网络和科技的发展,图像文字检测和识别的应用场景在不断改变,图像版面越发复杂,处理难度增加,传统的光学字符算法无法满足当下图像文字检测和识别的需求。随着深度学习的发展和其在计算机视觉领域的使用,为文字检测识别技术的发展提供一个新的思路。本文通过研究主流的多方向图像文字检测算法,得到现有算法的特征提取、池化和候选框精修模块存在待完善点。因此,本文引入特征金字塔,并对其连接方式进行改进,提出半紧密连接方法来充实各层的语义信息。从文字检测所需要的特征性质出发,使用低层的特征信息进行检测操作,提高算法的结果。针对池化部分,量化操作使用邻近插值法导致特征不对齐的情况,使用双线性插值法进行改善。同时针对文本行的宽高比特征,引入多尺度池化操作,使用三种池化尺寸进行池化,来增强水平文本包围框的特征和垂直文本包围框的特征,并对仿射变换后的感兴趣区域90度旋转后进行池化,增强算法的鲁棒性。在候选框精修部分,使用置信分数对候选框进行筛选,置信分数的计算考虑了候选框之间的夹角信息,降低候选... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:59 页

【学位级别】:硕士

【部分图文】:

基于深度学习的图像文字检测与识别的研究


全连接与局部连接示意图

示意图,神经网络,示意图,神经元


哈尔滨工业大学工学硕士学位论文2.2.2 卷积神经网络的结构卷积神经网络的组成大致为五个层,分别是输入层、卷积层、激活函数层、池化层和全连接层。神经元是网络层的组成单元。然后神经元使用权重和偏置对这些信息数据进行线性映射和非线性映射,其中这两类映射变换是可导的。最后当前神经元将这些变换后的数据输入下一层的神经元,该神经元完成了一个工作流程。网络层最后使用损失函数对训练过程中输出的结果和实际数据进行评估,使用评估结果对神经元的参数进行调整。卷积神经网络的损失函数可以有一个也可以有多个。传统的神经网络使用向量来表示数据,卷积神经网络使用与输入的数据结构同形式的数据结构来表示数据。传统神经网络与卷积神经网络的结构区别如图 2-2 所示。

示意图,示意图,矩形区域,文字检测


第 2 章 文字检测与识别相关原理与算法介绍池化层层通过增加卷积核的数量和卷积层数进行提取特征,会获得包含冗余的特征同时会造成训练过程的负担。因此池化层对性池化函数进行下采样,从而对特征空间进行压缩。在理想去除掉特征映射中的冗余和不重要的特征,达到获得主要特度的效果。同时,池化层保证了平移、旋转和尺度操作后,变化的性质。池化和平均池化是最常用的两种池化操作。最大池化的处理图像特征分成多个矩形区域,每个区域的特征最大值表达该-3 为最大池化示意图。平均池化是计算每个矩形区域的特征阵区域的特征值。


本文编号:3359083

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3359083.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9a58f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com