基于YOLO的自然场景中文文本检测算法研究

发布时间:2021-09-14 19:41
  随着互联网技术的飞快发展,文本检测在智能交通、视频检索等领域中具有重要应用。本文总结现有文本检测技术的相关研究与技术基础,针对场景检测中文本存在的倾斜、光照、背景结构复杂等问题,以及中文检测难题,结合深度学习方法与传统文本检测方法的优点,提出了两种中文文本检测算法来挖掘自然场景图片文本语义的深层信息,主要工作内容如下。(1)针对传统的自然场景文本检测方法存在精度较低,速度较慢,以及文本行在任意方向排列时的检测难题,提出在YOLO实时目标检测模型(You Only Look Once)基础上,添加最大极值稳定区域MSER检测算法(Maximally Stable Extremal Region),同时引入GIoU改进边框回归损失函数。改进的模型能充分利用YOLO模型的快速性以及MSER算法在倾斜角度检测上的优势,实现快速精准的任意方向文本行的检测。实验表明,该算法在公开数据集上的F-score达到53.1。(2)针对自然场景背景模糊、低对比度等高噪点造成的检测困难,直接改进YOLO深度卷积神经网络模型。算法主要思路:在YOLO深度卷积神经网络模型中添加旋转建议模块(Rotation Pr... 

【文章来源】:武汉科技大学湖北省

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 传统文本检测方法
        1.2.2 基于深度学习的自然场景文本检测算法
    1.3 数据集介绍
    1.4 本文主要贡献与创新
    1.5 论文主要内容及章节安排
第2章 相关技术理论
    2.1 文本检测任务概述
    2.2 自然场景图像特点与文本检测难点
    2.3 MSER相关理论
        2.3.1 MSER数学定义
        2.3.2 MSER算法原理
    2.4 深度学习与卷积神经网络
        2.4.1 深度学习
        2.4.2 卷积神经网络
        2.4.3 残差网络
    2.5 YOLO算法介绍
        2.5.1 YOLO基本原理
        2.5.2YOLOV3
    2.6 本章小结
第3章 YOLO+MSER的自然场景文本检测方法
    3.1 网络模型设计
    3.2 YOLOv3阶段
        3.2.1 改进初始化锚点框
        3.2.2 边界框预测
        3.2.3 GIoU损失函数
        3.2.4 基于GIoU的边框回归损失函数
    3.3 MSER模块设计
        3.3.1 MSER层
        3.3.2 伪字符区域滤除
        3.3.3 文本方向估计
    3.4 实验设置与结果分析
        3.4.1 实验设计与评估标准
        3.4.2 模型训练
        3.4.3 实验结果分析
    3.5 本章小结
第4章 集成RPM的改进型YOLO场景文本检测方法
    4.1 网络模型设计
        4.1.1 高噪点图片检测
        4.1.2 旋转候选区域网络
        4.1.3 模型概述
    4.2 算法实现
        4.2.1 斜框IoU计算
        4.2.2 改进特征金字塔结构
        4.2.3 旋转锚点框优化
        4.2.4 RPM旋转建议模块设计
        4.2.5 改进损失函数
    4.3 实验设置与结果分析
        4.3.1 实验设计与评估标准
        4.3.2 模型训练
        4.3.3 实验结果分析
    4.4 本章小结
第5章 总结和展望
    5.1 论文总结
    5.2 研究展望
致谢
参考文献
附录1 攻读硕士学位期间发表的论文
附录2 攻读硕士学位期间参加的科研项目
详细摘要


【参考文献】:
期刊论文
[1]基于双向LSTM的手写文字识别技术研究[J]. 张新峰,闫昆鹏,赵珣.  南京师大学报(自然科学版). 2019(03)
[2]基于深度学习的多方向维吾尔文区域检测[J]. 阿卜杜外力·如则,帕力旦·吐尔逊,阿布都萨拉木·达吾提,艾斯卡尔·艾木都拉.  电视技术. 2019(Z1)
[3]自然场景中文本定位方法研究[J]. 潘立,刘亮亮,张再跃.  计算机与数字工程. 2019(06)
[4]基于深度学习的场景文字检测综述[J]. 姜维,张重生,殷绪成.  电子学报. 2019(05)
[5]MSER快速自然场景倾斜文本定位算法[J]. 张开玉,邵康一,卢迪.  哈尔滨理工大学学报. 2019(02)
[6]Attention-YOLO:引入注意力机制的YOLO检测算法[J]. 徐诚极,王晓峰,杨亚东.  计算机工程与应用. 2019(06)
[7]基于改进SSD的实时检测方法[J]. 陈立里,张正道,彭力.  激光与光电子学进展. 2019(01)
[8]改进的非极大值抑制算法的目标检测[J]. 赵文清,严海,邵绪强.  中国图象图形学报. 2018(11)
[9]基于k-means++的多分类器选择分类研究[J]. 熊霖,唐万梅.  重庆师范大学学报(自然科学版). 2018(06)
[10]自然场景图像中的文本检测综述[J]. 王润民,桑农,丁丁,陈杰,叶齐祥,高常鑫,刘丽.  自动化学报. 2018(12)

博士论文
[1]面向图像语义分割的新型卷积神经网络及其应用研究[D]. Robail Yasrab.中国科学技术大学 2017

硕士论文
[1]PixelLink:基于实例分割的自然场景文本检测算法[D]. 邓丹.浙江大学 2018
[2]基于尺度不变特征融合的目标跟踪算法[D]. 张高翔.西安电子科技大学 2017



本文编号:3395410

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3395410.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a0b03***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com