基于字符的文档图像方向矫正研究

发布时间：2021-03-08 06:11

　　近年来,计算机视觉领域的发展日新月异。其中光学字符识别（optical character recognition,OCR）作为计算机视觉的一个重要分分支,旨在从图像中准确识别出所包含文字。而在现实生活和办公中,扫描文档图像作为文字的一种重要载体,准确对其进行OCR识别能够大大减少人力成本。但是获取文档图像的过程中,有很多因素将导致最终的文档图像处在错误的方向。例如扫描前没有将文档放在正确的方向,或者所获取的图像方向信息丢失。而这将影响OCR识别效果和后续图像处理工作。针对文档图像可能处在的四个方向,本文提出了基于字符的文档图像方向矫正算法。该算法从文档图像所包含的字符出发,通过分析字符方向以确定文档方向。本研究的主要工作如下:1.提出的基于字符的文档图像方向矫正方法,首先利用文本行检测和字符分割方法以确定字符位置,然后对文档内的字符进行方向分类以确定文档方向。最终在CASIA-HWDB2.1文档图像测试集上测试,准确率达到97.0%。2.提出了基于全卷积网络（fully convolutional network.FCN）的字符分割方法,可以端到端的判断文本行图像每一列是否为分割线,...

【文章来源】：天津师范大学天津市

【文章页数】：51 页

【学位级别】：硕士

【部分图文】：

基于字符的文档图像方向矫正研究

图１－１?（ａ）正向手写文档（ｂ）正向文档识别结果??⑷颠倒手写文档（ｄ）颠倒手写文档识别结果??传统的图像方向矫正多依赖人工设计的特征［２＜，人工设计的特征适应性差，??

检测效果,网络结构,边界框,低维

图３－１?（ａ）?ＲＰＮ网络结构（ｂ）?ＲＰＮ检测效果??为了生成区域建议，在这组共享卷积层的最后一层输出的特征上，添加一个??小的映射网络＝这个小网络将特征上的ｎ＊ｎ空间窗口作为输入，每个滑动窗都将??映射到一个低维特征。这个低维特征将同时被一个边界框回归层和一个边界框分??

图像金字塔,金字塔

??类层作为输入。如图３－ｌ（ａ）所示，该映射网络在特征图上一个点的效果图。注意??该映射网络以滑动窗的形式在共享卷积层输出的特征图上每个点滑动，该映射网??络的权重将在甸个位置的特征共享。整个ＲＰＮ网络通过一个ｎ＊ｎ的卷积？和两??个相邻的１＊１的卷积层（分別用于边界框回归和边界框分类）组成。??、、?ｍｕｌｔｉｐｌｅ?ｆｉｌｔｅｒ?ｓｉｚｅｓ??ｍ??（ａ）?（ｂ）??图３－２?（ａ）图像金字塔（ｂ）特征金字塔??对于共享卷积层最后一层输出特征图上的每个特征点，ＲＰＮ都为其提供ｋ??个建议区域。所以边界回归层的输出为４ｋ个结点，分别表示ｋ个对象候选框，??边界分类层输出为２ｋ个结点，分别代表ｋ个建议区域是否为对象的概率。ｋ个??建议区域以该点为中心的相对位置表示，被称为锚点。锚点以滑动窗的中心位置??为中心，可以拥有不同的尺寸和高宽比，如图３－ｌ（ａ）所示。默认情况下，ＲＰＮ中??的锚点将设置３个尺度和３种高宽比。对于共享卷积产生的Ｗ?＊?Ｈ的特征图，??ＲＰＮ共产生Ｗ＊Ｈ＊ｋ个锚点。基于相对位置和滑动窗的ＲＰＮ网络

本文编号：3070556

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3070556.html

上一篇：习近平大数据观研究
下一篇：基于光视觉的水下运动目标检测与识别技术的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|