退化文档图像的二值化问题分析与研究

发布时间:2023-04-01 17:06
  为了方便阅读,大多数文档的前景文字与背景区域都特意的以高对比度的方式呈现。图像的二值化是文本识别中一个十分重要的步骤。当涉及到退化文档图像的处理时,图像的二值化就成了一项具有挑战性的任务。对于一般的文本图像,二值化非常简单,但是对于退化的文档图像,由于存在不同类型的文档退化,如光照不均匀、图像对比度变化、字符模糊、背景漏色、渗透、墨迹、纸张老化、污迹、纸张折痕等,这些问题使得退化文档图像的二值化难度加大。此外,图像内容的复杂性和字符尺度的多样性使得在某些情况下,从背景和噪声中准确地区分出文档图像的前景变得十分困难。文档图像二值化的目标是将给定的灰度图或彩色文档图像转换成黑白图像的形式。由于退化文档图像的快速检索及传阅的需要,退化文档图像的二值化是一项不可忽视的工作。全文以退化文档图像的二值化为主线,首先对该领域的研究背景以及现状进行了详细阐述。然后,介绍了现有的经典图像二值化算法,包括全局阈值法、局部阈值法、基于统计学的二值化算法和基于深度学习的二值化算法。并针对现有的退化文档图像的二值化问题,我们提出了两种二值化算法,使得到的二值图在能够保留有意义的前景文字信息的同时丢弃噪声信息。第...

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
中文摘要
英文摘要
1 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 研究内容与创新点
    1.4 本文结构安排
2 退化文档二值化算法概述
    2.1 引言
    2.2 传统阈值算法
        2.2.1 全局阈值法
        2.2.2 局部阈值法
    2.3 基于机器学习的阈值化算法
        2.3.1 基于统计学的二值化算法
        2.3.2 基于学习的二值化算法
    2.4 二值化算法性能评估指标
    2.5 公用数据集介绍
    2.6 本章小结
3 多阈值融合的局部二值化算法
    3.1 引言
    3.2 基于边缘的局部二值化算法
    3.3 改进的Sauvola算法局部二值化算法
    3.4 多阈值融合的局部二值化算法
    3.5 实验结果与分析
    3.6 本章小结
4 基于深度学习的退化文档图像二值化算法
    4.1 引言
    4.2 训练数据的扩展
    4.3 网络结构
        4.3.1 基于卷积神经网络的特征提取
        4.3.2 本文网络结构
    4.4 损失函数
    4.5 实验结果与分析
        4.5.1 与传统经典算法比较
        4.5.2 与非级联深度网络结构比较
    4.6 本章小结
5 总结与展望
    5.1 论文工作总结
    5.2 论文研究展望
参考文献
附录
    A 作者在攻读硕士学位期间发表的论文和专利
    B 学位论文数据集
致谢



本文编号:3777528

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3777528.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a95eb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com