基于深度神经网络的自然场景多方向文本检测与识别方法研究

发布时间:2021-04-21 14:11
  文字作为信息传递的重要载体之一,包含了丰富的语义信息,图像中的文本信息能够帮助人们更好的理解场景。通常,自然场景文本图像背景复杂,同时模糊、光照不足、透视变形等情况时有发生;另外,自然场景文本自身形态多样:颜色和字体多变、长度不一、排列方向任意、语种多样等等。以上问题加大了自然场景文本检测与识别的难度。近年来,特别是深度学习时代到来之后,自然场景文本检测与识别成为计算机视觉领域的一个研究热点。针对自然场景文本检测与识别的难点问题,结合深度神经网络,本文提出基于旋转感知文本区域候选网络的自然场景文本检测方法,实现多方向、多尺度、多语言的自然场景文本检测;在检测的基础上,研究自然场景文本识别,提出基于残差递归神经网络的自然场景文本识别方法,实现多语言的自然场景文本识别。具体介绍如下:(1)受启发于Faster R-CNN,提出一个旋转感知的文本区域候选网络(Rotationaware Text Proposal Network,RTPN),用于自然场景图像中的多方向文本检测。首先,使用ResNet-101作为骨架网络,进行特征提取;然后,设计了一个角度敏感的anchor机制,用于生成多方向... 

【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校

【文章页数】:73 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
符号对照表
缩略语对照表
第一章 绪论
    1.1 研究背景及意义
    1.2 自然场景文本检测与识别研究现状
        1.2.1 自然场景文本检测研究现状
        1.2.2 自然场景文本识别研究现状
    1.3 本文的主要工作
    1.4 本文的章节安排
第二章 相关知识及技术理论
    2.1 目标检测
    2.2 Faster R-CNN简介
    2.3 Res Net简介
第三章 基于旋转感知文本区域候选网络的自然场景文本检测
    3.1 引言
    3.2 旋转感知文本区域候选网络
        3.2.2 特征提取
        3.2.3 角度敏感的anchor机制
        3.2.4 多方向的ROI Align池化
        3.2.5 改进的NMS
    3.3 实验与分析
        3.3.1 实验数据集
        3.3.2 训练
        3.3.3 文本检测评价指标
        3.3.4 实验结果与分析
    3.4 本章小结
第四章 基于残差递归神经网络的自然场景文本识别
    4.1 引言
    4.2 文本识别网络结构设计
    4.3 基于深度残差网络的编码
    4.4 基于递归神经网络的解码
        4.4.1 注意力机制的引入
        4.4.2 基于注意力机制的文本识别
    4.5 实验与分析
        4.5.1 实验数据集
        4.5.2 训练
        4.5.3 文本识别评价指标
        4.5.4 实验结果与分析
    4.6 本章小结
第五章 总结与展望
    5.1 总结
    5.2 展望
参考文献
致谢
作者简介



本文编号:3151906

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3151906.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f9806***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com