基于深度学习的自然场景图像中文字检测的研究和应用

发布时间:2021-12-27 18:00
  自然场景图像中的文字具有丰富且精确的高层语义信息,是感知和理解图像内容的重要视觉元素。许多应用场景,如信息检索、实时翻译、自动驾驶、自动阅读、机器人流程自动化等,都需要利用到场景文字信息。因此,场景文字检测近年来受到了计算机视觉领域和文档分析与识别领域的广泛关注。但是,由于场景文字对象本身在尺度、形状、方向、语言、颜色、字体、排版和对齐等方面的多样性,场景图像背景的复杂性和某些背景区域纹理与文字的相似性,以及图像拍摄过程中引入的一些干扰因素,如不规则几何形变、模糊、非均匀光照、强曝光、遮挡等,场景文字检测依然是一个很有挑战性的研究课题。传统的基于滑动窗口或连通区域和手工设计特征的场景文字检测方法在真实场景下无法取得令人满意的性能。而且传统方法通常包含多个算法模块,每个模块分步地处理,整个文字检测流程复杂程度高。近年来,深度学习技术发展迅猛,展现出了极其强大的特征学习能力和可端到端优化的优秀特性,在计算机视觉、语音识别、自然语音处理等领域取得了突破性进展。本文基于深度学习算法,对场景文字检测问题开展了一系列研究工作:(1)提出一种端到端可训练的场景文字检测方法。之前(2016年以前)的场...

【文章来源】: 华南理工大学广东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:151 页

【文章目录】:
摘要
ABSTRACT
英文缩略语表
第1章 绪论
    1.1 研究背景与意义
    1.2 研究难点
    1.3 本文工作内容
    1.4 章节安排
第2章 深度学习方法概述
    2.1 深度学习发展现状
    2.2 卷积神经网络
        2.2.1 卷积层
        2.2.2 池化层
        2.2.3 全连接层
        2.2.4 激活函数层
        2.2.5 Dropout层
        2.2.6 归一化层
        2.2.7 新型CNN的设计技巧
    2.3 循环神经网络
    2.4 优化方法
第3章 自然场景文字检测研究现状
    3.1 传统的文字检测方法
        3.1.1 基于滑动窗口的自上而下的文字检测方法
        3.1.2 基于连通区域的自底而上的文字检测方法
    3.2 基于深度学习的文字检测方法
        3.2.1 基于深度学习的自上而下的文字检测方法
        3.2.2 基于深度学习的自底而上的文字检测方法
    3.3 相关数据集
        3.3.1 合成数据集
        3.3.2 真实场景数据集
    3.4 评价准则
        3.4.1 ICDAR-2003 评价准则
        3.4.2 Detval评价准则
        3.4.3 MSRA-TD500评价准则
        3.4.4 IoU评价准则
        3.4.5 Tightness-aware IoU和TedEval评价准则
    3.5 研究现状总结和分析
第4章 场景文字候选区域生成和场景文字检测
    4.1 引言
    4.2 相关工作
        4.2.1 物体检测
        4.2.2 场景文字检测
    4.3 本章方法介绍
        4.3.1 基于Inception模块的文字候选区域生成网络
        4.3.2 文字校准网络:Fast R-CNN
        4.3.3 训练优化
    4.4 实验结果及分析
        4.4.1 实验数据集和评价准则
        4.4.2 实现细节
        4.4.3 文字候选区域生成质量评测
        4.4.4 文字检测性能评测
        4.4.5 消融实验
    4.5 本章小结
第5章 场景文字检测中文字定位精度问题的研究
    5.1 引言
    5.2 相关工作
        5.2.1 场景文字检测
        5.2.2 边界框定位
    5.3 本章方法介绍
        5.3.1 基于改进的Faster R-CNN的文字检测方法
        5.3.2 基于嵌入LocNet定位模块的Faster R-CNN的文字检测方法
    5.4 模型训练
        5.4.1 损失函数
        5.4.2 训练细节
    5.5 实验结果及分析
        5.5.1 实验数据集和评价准则
        5.5.2 水平方向文字检测
        5.5.3 多方向文字检测
        5.5.4 讨论与分析
    5.6 本章小结
第6章 不基于锚点框机制的候选区域生成网络及其在场景文字检测中的应用
    6.1 引言
    6.2 相关工作
        6.2.1 场景文字检测
        6.2.2 锚点框机制
    6.3 本章方法介绍
        6.3.1 不基于锚点框机制的候选区域生成网络(AF-RPN)
        6.3.2 基于嵌入AF-RPN的Faster R-CNN/Mask R-CNN的文字检测方法
        6.3.3 模型训练
    6.4 实验结果及分析
        6.4.1 实验数据集和评价准则
        6.4.2 实现细节
        6.4.3 文字候选区域生成质量评测
        6.4.4 文字检测性能评测
        6.4.5 讨论与分析
    6.5 本章小结
总结与展望
    1. 本文工作总结
    2. 未来研究展望
参考文献
攻读博士学位期间取得的研究成果
致谢
附件


【参考文献】:
期刊论文
[1]SynthText3D:synthesizing scene text images from 3D virtual worlds [J]. Minghui LIAO,Boyu SONG,Shangbang LONG,Minghang HE,Cong YAO,Xiang BAI.  Science China(Information Sciences). 2020(02)
[2]深度学习在手写汉字识别中的应用综述 [J]. 金连文,钟卓耀,杨钊,杨维信,谢泽澄,孙俊.  自动化学报. 2016(08)



本文编号:3552453

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3552453.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ee040***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com