基于深度学习的场景文字识别研究

发布时间:2024-06-29 01:34
  场景文字识别是一种通用文字识别技术,近年来其已经成为计算机领域重点的研究方向。传统光学字符识别技术(Optical Character Recognition,OCR)在文档图像方面已经取得了很好的识别效果,但却难以应对场景文字在字体、分布、背景等方面的复杂性。近年来深度学习技术快速发展,并且在OCR领域里发挥了主导作用,因此本文基于深度学习方法,围绕场景文字识别问题展开研究,主要研究内容如下:(1)提出了一种文本图像矫正方法。针对文本行倾斜问题,提出了一种基于连通区域分析的倾斜矫正方法。该方法首先获取输入图像的连通区域,然后根据字符的比例、大小等先验知识过滤非字符连通区域,最后通过计算连通区域间的倾斜角度来估算文本行倾斜角度。实验结果表明,所提方法能够有效提升相同框架的识别性能。(2)设计一种序列到序列的文字识别网络。在卷积循环网络(Convolutional Recurrent Neural Networks,CRNN)网络的基础上,本文首先利用所提出的图像矫正方法对输入图像进行矫正,降低问题复杂度;其次将CRNN中的卷积部分加入BN层,在提高卷积神经网络的收敛速度、降低网络对初始...

【文章页数】:56 页

【学位级别】:硕士

【部分图文】:

图1-6基于多边形或者曲线框的任意形状场景文本示例

图1-6基于多边形或者曲线框的任意形状场景文本示例

第一章绪论图1-6基于多边形或者曲线框的任意形状场景文本示例。到更好的保证,从而提高识别的结果。在过去,端到端场景文本检测及识别的系统面临着几个主要的问题。速度太慢。早期的端到端的方法通常是将检测与识别网络简单的堆砌在一起,使得端到端的结构速度比较其独立的两个模型没有明显的优势。....


图1场景文字示例

图1场景文字示例

在场景文字图像自身存在众多外接干扰因素,比如模糊、失真、噪声、低分辨率、不均匀的光线及部分区域的污迹涂抹等,都增加场景文字检测与识别的难度。基于上述难点,传统的图像文字提取方法无法有效地解决场景文字的检测和识别问题,因此国内外研究者们尝试研究基于深度学习的场景文字的检测和识别技术....


图2.2文字实例长度分布

图2.2文字实例长度分布

?基于深度学习的场景文字检测与识别方法研究???4000??3500??I3000??(U??^?2500??^?2000?■??I?1500?||??|||-??n?————屬.JLBI?Jl_I—麵_????I??0?250?500?750?1000?1250?1500?17....


图2.3前50个字符类别的出现频率

图2.3前50个字符类别的出现频率

?基于深度学习的场景文字检测与识别方法研究???4000??3500??I3000??(U??^?2500??^?2000?■??I?1500?||??|||-??n?————屬.JLBI?Jl_I—麵_????I??0?250?500?750?1000?1250?1500?17....



本文编号:3996961

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3996961.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7f0dc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com