当前位置:主页 > 社科论文 > 图书档案论文 >

基于全卷积网络的古籍文档图像二值化研究

发布时间:2024-04-18 05:35
  作为文档分析与识别系统中的重要预处理步骤,二值化不仅可以提高文档图像的视觉质量,还对后续的检测与识别起着重要的作用。传统的二值化算法通常基于人工特征,在包含多种退化因素的文档上效果较差。基于深度学习的二值化算法采用全卷积网络对文档图像进行端到端的分割,取得了较好的效果。但是,全卷积网络本质上是学习像素颜色差异,因此对于颜色较浅的文本或颜色较深的背景噪声容易产生误分类。此外,由于卷积神经网络输入大小的限制,导致其很难处理文本分布不均匀问题。本文针对上述问题,首先引入了注意力门控模块,该模块能够在加强文本像素的同时抑制背景像素,从而加大文本和噪声的差异,使网络输出更精确的二值化结果。在此基础上提出了两阶段网络用于解决文本分布不均匀问题,其中第一阶段网络用于产生图像全局和局部两种尺度的预测,第二阶段网络融合两种预测的信息,产生背景更干净、笔画结构更完整的精细二值分割。本文在文档图像二值化的基准数据集——DIBCO数据集上进行了一系列的实验。在消融实验中,引入注意力门控模块后的网络在二值化性能上有所提升,这证明了该模块的有效性,而两阶段网络在文本分布不均匀情况居多的DIBCO2013数据集上相...

【文章页数】:76 页

【学位级别】:硕士

【部分图文】:

图2-1DIBCO2016H08的原始图像及对应的GT[35]

图2-1DIBCO2016H08的原始图像及对应的GT[35]

第二章文档图像二值化算法概述5第二章文档图像二值化算法概述如前文所述,文档图像二值化是指将文档图像中的像素分为文字和背景两个类别,并分别赋予255和0的灰度值。需要补充的一点是,二值化算法通常会在实现前将输入图像反相,这样算法得到的二值化分割图的前景像素灰度值为255,背景像素灰....


图2-6文献[18]的算法的整体网络结构

图2-6文献[18]的算法的整体网络结构

?玫接胧淙胪枷裣嗤?叽绲氖涑鐾枷瘢?佣?繁5玫骄??的结果进行像素级分类;③FCN设计了可融合不同尺度特征图的跳级结构,同时确保鲁棒性和精确性。FCN的这些特性使它能够胜任图像分割任务。对于语义级别的图像分割,融合全局与局部特征可以显著提升模型性能,例如最初提出的FCN-8s结构....


图2-9DSN结构示意图[19]

图2-9DSN结构示意图[19]

第二章文档图像二值化算法概述132.2.3分层次DSN二值化方法[19]Vo等人于2018年提出基于分层次深度监督网络的文档图像二值化算法[19]。作者在文章中提出了鲁棒二值化算法的两个标准:一是从前景中区分复杂背景噪声的能力,二是保留高质量视觉效果的前景细节的能力。对于第一点,....


图2-10分层次DSN整体架构[19]

图2-10分层次DSN整体架构[19]

第二章文档图像二值化算法概述132.2.3分层次DSN二值化方法[19]Vo等人于2018年提出基于分层次深度监督网络的文档图像二值化算法[19]。作者在文章中提出了鲁棒二值化算法的两个标准:一是从前景中区分复杂背景噪声的能力,二是保留高质量视觉效果的前景细节的能力。对于第一点,....



本文编号:3957500

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3957500.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e855e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com