当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的场景蒙古文字检测与识别研究

发布时间:2021-06-29 21:17
  文字作为人类高层语义信息中最直接的表示形式,在图像理解中扮演着不可或缺的重要角色。近年来,研究人员针对场景图像中英文、汉字等文字的检测和识别方法已经进行了深入研究,并取得了丰硕成果,但针对复杂场景图像中的蒙古文字检测和识别方法研究还处于起步阶段。在此背景下,本文主要研究内容如下:1.本文研究了一种基于深度学习和最大稳定极值区域(MSER)的场景蒙古文字检测算法。目前,由于缺少大规模场景蒙古文字检测数据集资源,无法训练得到鲁棒的深度检测网络模型,但基于MSER的方法不需要大量训练样本,且对视角、字符大小、光照变化具有鲁棒性。在MSER方法基础上,只需要相对较少的训练样本就可以训练出高效稳定的卷积神经网络(CNN)分类器,用来判断候选连通区域是否是蒙古文字区域。实验结果表明,所提方法能够良好地完成场景图像中的蒙古文字检测任务。2.本文研究了一种虚拟场景蒙古文字样本生成方法。在蒙古语言文字信息化的快速发展过程中,关于印刷体蒙古文档图像分析和文字识别方面已经开展了大量工作,但针对场景中的蒙古文字识别研究开展的较少。一方面关于蒙古语言文字的研究开展的较晚,另一方面由于缺乏大量的训练样本,导致无法... 

【文章来源】:内蒙古大学内蒙古自治区 211工程院校

【文章页数】:56 页

【学位级别】:硕士

【部分图文】:

基于深度学习的场景蒙古文字检测与识别研究


生成的候选区域Figure3.2Generatedcandidateregions

矩形图,矩形,连通区域,边缘密度


蛳嘟岷希?源?砑觳獾降拇?量非文字区域。1.非极大值抑制(Non-MaximumSuppression,NMS)可以表述为“局部最大搜索”,其中局部最大,表示大于其它所有领域,但是不包括其自身。NMS是计算机视觉中应用最广泛的后处理算法。NMS的原理是使用最大滤波器对检测到的所有目标矩形框进行概率排序,然后将概率最大的目标矩形框与其余的目标矩形框相比,如果他们的重叠度(IntersectionOverUnion,IOU)大于预先设定的阈值,则将其余的目标矩形框丢掉,保留原始的目标矩形框。然后一直重复这个过程,一直到找到所有满足条件的目标矩形框。图3.3显示了目标检测中矩形框的重叠形式,计算图中overlap的面积即可求得它们的IOU。图3.3矩形交叉图Figure3.3RectanglecrossdiagramIOU的计算公式如公式(3.1)所示,其中A为矩形1的面积,B为矩形2的面积。IOU=∩∪(3.1)2.本文事先设定的一些启发式规则如下:a)计算边缘密度。通过计算候选连通区域的边缘密度,来对候选连通区域进行筛眩因为文字区域的边缘密度大于非文字区域的边缘密度,所以可以去除小于设定的阈值的候选连通区域。候选连通区域边缘密度的计算公式如(3.5)所示:=∑∑(,)(3.2)其中,(,)表示边缘图像,和分别表示候选区域的宽度和高度。在本文中,阈值设定为0.2,如果候选连通区域的边缘密度小于0.2,则将它们视为非文字连通区域,并去除掉。b)计算候选连通区域的宽高比。删除掉高度和宽度之比在[0.1,10]之外的候选文字连通区域。c)计算候选连通区域的面积。删除掉极值区域面积大于1300的候选连通区域和面积小于150的候选连通区域。overlapAB

区域图,字符,区域,连通区域


内蒙古大学硕士学位论文 应用本文事先设定的一些启发式规则和非极大值抑制对获取到的最大稳定值区域进行筛选后,如图 3.4 所示,虽然它们还存在一些错误检测,但是极大地减少了非文字区域的候选连通区域数量。与此同时,该方法还需要一个强大的文字分类器来区分蒙古文字连通区域与非蒙古文字连通区域。下面介绍一种基于卷积神经网络的高性能文字分类器。

【参考文献】:
硕士论文
[1]基于深度学习的印刷蒙古文整词识别技术研究[D]. 王伟源.内蒙古大学 2019



本文编号:3257177

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3257177.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户49b86***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com