基于深度学习的端到端手写文本检测与识别方法研究

发布时间：2021-04-06 02:42

　　目前对端到端的文本检测与识别模型的研究取得了不错的进展,该领域研究主要分为两个方向,一类是结合文本行检测和RNN解码的方式,这类方法无法检测单个字符边框。另一类是结合Faster RCNN检测算法和ROI pooling方式构建两阶段模型,这类方法可以检测每个字符,但计算量大。在这项研究工作中,我们提出了一种新型的端到端单阶段模型,可以直接预测单个字符的边框和相应的字符类别,克服了基于RNN解码和基于ROI pooling的方法带来的限制。本研究在主干网络中使用了不同尺度特征图融合的方法,显著提升了检测和识别性能。为了优化小字符的检测,使用了随机复制的策略扩充了小字符的数量并增加了字符的空间位置多样性。对于一些显著偏离文本区域的噪点,本文提出了一种新的后处理方法,可以有效过滤噪点。由于字符级的用于手写文本检测和识别的公开数据集非常少,所以我们开发了一套手写文本自动标注系统,这套系统使用知识迁移的方法,在合成手写图像数据上进行模型训练,在真实文本图像上进行字符检测和识别。实验证明系统在真实图像上的检测m AP达到87%,识别精度达到70%,并且该系统的应用能节省人工标注70%以上的时间。...

【文章来源】：哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】：82 页

【学位级别】：硕士

【部分图文】：

计算tblr距离示意图

二值化图,二值化,效果图,图像

哈尔滨工业大学工程硕士学位论文-29-开始获得单字图片大津二值化灰度均衡居中padding大小归一化转为三通道结束图2-20字符图片预处理在字符图像预处理的流程中，使用大津二值化主要是为了将图片分为前景和背景两部分，保持手写汉字灰度不变，将背景统一为纯白底色，这样能增加识别的鲁棒性。效果图如图2-21所示。图2-21大津二值化效果图(左为原始图像，右为二值化校正图像)进行灰度均衡是为了尽可能使得所有文字的灰度值保持均衡，这样能提升文字识别模型的准确度。具体做法是对于像素值在0到255之间的手写图片，将所有在0到150的像素值改为0，150到200的像素值改为100，200到254范围内的改为200，这样的修改会使得样本图片中的笔画浅的地方会增黑，而且颜色变化更加均匀。前后效果如图2-22所示。

效果图,灰度,效果图,图像

哈尔滨工业大学工程硕士学位论文-30-图2-22灰度均衡效果图(左为原始图像，右为灰度均衡校正图像)居中padding和resize操作是为了保持原图中文字的横纵比不变，将图片统一大校直接将图片resize到统一大小会丢失文字的结构信息，如图中间所示。修改图片大小使用了OpenCV的邻接线性插值法。效果如图2-23所示。图2-23居中padding及归一化示意图(左为原始图像，中间为直接resize图片，右为预处理后图像)2.3.4模型构建构建模型需要确定四个部分，分别为获取训练数据Generate_data类、构建计算图Graph类、构建模型损失函数Loss类和模型配置文件Config类。Graph类确定网络的结构，实例对象是模型的整体网络骨架。Generate_data类是用于给训练模型提供所需要的数据，实例对象是数据生成器。Loss类可以确定网络的损失函数，实例对象网络的损失函数。Config类可以配置网络参数，实例对象是模型的配置文件。模型构建的类图如图2-24所示，Net类负责构建训练模型实例，调用get_batch方法依赖Generate_data类，get_batch方法可以创建训练数据实例，调用build_graph方法依赖Config类、Graph类、和Loss类，build_graph方法能创建模型实例，而构建模型实例需要Config类给出模型的超参数配置、Graph类给出模型的整体结构和Loss类给出训练模型需要的损失函数。

本文编号：3120593

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3120593.html

上一篇：手足复用六足机器人结构设计与步态规划
下一篇：智慧校园供水管网监控系统设计

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|