基于字符的文档图像方向矫正研究

发布时间:2021-03-08 06:11
  近年来,计算机视觉领域的发展日新月异。其中光学字符识别(optical character recognition,OCR)作为计算机视觉的一个重要分分支,旨在从图像中准确识别出所包含文字。而在现实生活和办公中,扫描文档图像作为文字的一种重要载体,准确对其进行OCR识别能够大大减少人力成本。但是获取文档图像的过程中,有很多因素将导致最终的文档图像处在错误的方向。例如扫描前没有将文档放在正确的方向,或者所获取的图像方向信息丢失。而这将影响OCR识别效果和后续图像处理工作。针对文档图像可能处在的四个方向,本文提出了基于字符的文档图像方向矫正算法。该算法从文档图像所包含的字符出发,通过分析字符方向以确定文档方向。本研究的主要工作如下:1.提出的基于字符的文档图像方向矫正方法,首先利用文本行检测和字符分割方法以确定字符位置,然后对文档内的字符进行方向分类以确定文档方向。最终在CASIA-HWDB2.1文档图像测试集上测试,准确率达到97.0%。2.提出了基于全卷积网络(fully convolutional network.FCN)的字符分割方法,可以端到端的判断文本行图像每一列是否为分割线,... 

【文章来源】:天津师范大学天津市

【文章页数】:51 页

【学位级别】:硕士

【部分图文】:

基于字符的文档图像方向矫正研究


图1-1?(a)正向手写文档(b)正向文档识别结果??⑷颠倒手写文档(d)颠倒手写文档识别结果??传统的图像方向矫正多依赖人工设计的特征[2<,人工设计的特征适应性差,??

检测效果,网络结构,边界框,低维


图3-1?(a)?RPN网络结构(b)?RPN检测效果??为了生成区域建议,在这组共享卷积层的最后一层输出的特征上,添加一个??小的映射网络=这个小网络将特征上的n*n空间窗口作为输入,每个滑动窗都将??映射到一个低维特征。这个低维特征将同时被一个边界框回归层和一个边界框分??

图像金字塔,金字塔


??类层作为输入。如图3-l(a)所示,该映射网络在特征图上一个点的效果图。注意??该映射网络以滑动窗的形式在共享卷积层输出的特征图上每个点滑动,该映射网??络的权重将在甸个位置的特征共享。整个RPN网络通过一个n*n的卷积?和两??个相邻的1*1的卷积层(分別用于边界框回归和边界框分类)组成。??、、?multiple?filter?sizes??m??(a)?(b)??图3-2?(a)图像金字塔(b)特征金字塔??对于共享卷积层最后一层输出特征图上的每个特征点,RPN都为其提供k??个建议区域。所以边界回归层的输出为4k个结点,分别表示k个对象候选框,??边界分类层输出为2k个结点,分别代表k个建议区域是否为对象的概率。k个??建议区域以该点为中心的相对位置表示,被称为锚点。锚点以滑动窗的中心位置??为中心,可以拥有不同的尺寸和高宽比,如图3-l(a)所示。默认情况下,RPN中??的锚点将设置3个尺度和3种高宽比。对于共享卷积产生的W?*?H的特征图,??RPN共产生W*H*k个锚点。基于相对位置和滑动窗的RPN网络


本文编号:3070556

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3070556.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f3bde***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com