基于深度学习的自然场景下文本行检测算法的研究
发布时间:2021-06-11 11:35
本文基于深度学习理论对自然场景下的文本行检测方法进行了研究。当前计算机视觉领域的学术研究受益于深度学习技术的快速进步,在目标检测、语义分割、物体识别等子问题上都取得了显著的成绩。自然场景下的文本行检测是计算机视觉领域一个基础且重要的课题,是很多应用的关键一环。本文研究的方法属于实例分割,主要研究内容可以分为以下三部分:1)总结阐述当前学术界在文本行检测算法上的最新进展,介绍卷积神经网络中存在缺陷和一些改进措施,为新方法的开发打下基础。针对文本行检测问题,当前学术界基于通用目标检测算法发表了诸多改进成果,本文对这些算法进行了分类归纳。2)改进了一种特征增强的网络结构CFPM。从基本的FPN网络结构出发,本研究设计了堆叠的多层级融合结构来进行特征增强。此外为了更好训练文本行检测模型而使用人工合成数据集制作预训练模型,以取得文本行检测任务的准确性和快速性的良好平衡。特征增强也能够起到减少训练所需标注数据的作用,本文提出的CFPM特征增强结构配合DB语义分割网络模型,能够在不增加很多参数的情况下保证较高的精度和近似实时的速度。3)改进了基于AC Loss的文本行检测算法CFPM-DB+。本研究...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Seglink算法示意图[24]
第一章绪论5开,避免了重叠的文本区域被融合为一个文本示例,针对图像中含有密集的文本和弯曲的文本实例的情况,效果显著。图1-3PSENet算法检测结果展示[31]1.2.3基于回归的文本行检测方法这类方法通常是从通用的目标检测算法改进而来,可进一步细分为Onestage方法[25],[32]或Twostage方法[22],[28]。Onestage方法直接回归文本框的坐标,Twostage方法包含产生候选文本区域的阶段和精细化文本框的阶段。Twostage的方法通常能够取得较高的准确率,但也有着较高的计算力需求。文本行和通常的目标检测的目标不同,文本行在图像中以多种不规则的形状和长宽比例出现。针对这种情况,Liao等人在2017年提出了TextBoxes算法[33],该算法通过修改卷积核和anchor的形状,来适应形状多变的文本区域。进一步的,2018年Liao等人提出RotationSensitiveRegressionDetector(RSDD)算法[34],该算法为了充分利用图像中旋转不变的特征,主动采用旋转的卷积核,增强了对各种方向的文本行的检测效果,但也存在着无法穷尽所有开放环境下的文本行形状的缺陷。2017年Zhou等人提出的EAST算法是基于回归的文本行检测算法的代表[35],EAST不需要产生文本区域的候选框,该算法只有两步简洁的流程,取消了中间的候选区域聚合、文本分词等操作,通过全卷积网络直接预测文本区域的坐标,并降低传统NMS算法的时间复杂度达到了实时检测的效果。也有一些方法同时利用了回归和分割两种方法的优势,2017年He等人提出的SSTD算法[36],通过在特征图上使用注意力机制,减少无关背景的干扰,增强和文本相关的区域。当前文本行检测领域还有更多新算法不断涌现,在公开的数据集上的记录不断被刷新,不少算法为了适应移动互联网时代朝着网络结构轻量化和部署简便化的
电子科技大学硕士学位论文6趋势发展,并且在准确性和快速性之间取得了良好的平衡。图1-4EAST算法检测结果示意图[35]1.3本文的主要贡献和创新点为了检测任意形状的文本行区域,本文基于分割的方法来研究这个问题。本文聚焦于文本行检测任务的快速性和准确性之间的平衡,研究重点如下:快速性:为了降低算法运行耗时,提高每秒处理的帧数,达到实用的目标,本文采用轻型的主干网络——Resnet-18[37]。但采用轻型的主干网络会导致提取到的特征不够充分,为了增强对小目标和大目标的检测能力,本文基于传统编码器-解码器型的特征提取网络结构,做出了轻量化的改进,提出了CFPM特征增强网络,同时复用了该特征增强模块,在强化特征的表达能力的同时,减少了运算量。准确性:为了获得较高的F-measure,本文使用了人工合成的数据来得到预训练模型,改进了DB语义分割模块的loss函数设计。在语义分割分支的设计中,本文同时使用基于kernel的监督标签和基于mask的监督标签,既避免了一些边界标注可能不够精细情况,又能够处理任意形状的文本区域。另外和重型特征提取主干网络相比,轻量的主干网络有着特征描述不足的缺陷,为了弥补这个缺点,本文使用可形变卷积替换传统Resnet-18网络的卷积算子。1.4本文的章节安排本文的内容安排如下:第一章:绪论。首先回顾了自然场景下文本行检测问题的研究历史和其在实际应用中重要且基础的作用,其次简要说明了本领域内面临的复杂难题,然后阐述了本研究领域内近年来飞速发展的现状和取得的显著成绩,最后总结本文的主要
【参考文献】:
博士论文
[1]基于图像分析和深度学习的船名标识字符检测与识别研究[D]. 刘宝龙.浙江大学 2018
硕士论文
[1]基于深度学习的税务票据自动识别系统的研究及实现[D]. 汤雷雷.中国科学院大学(中国科学院人工智能学院) 2019
[2]基于深度学习的路标识别系统研究[D]. 陈林.华东师范大学 2019
本文编号:3224456
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
Seglink算法示意图[24]
第一章绪论5开,避免了重叠的文本区域被融合为一个文本示例,针对图像中含有密集的文本和弯曲的文本实例的情况,效果显著。图1-3PSENet算法检测结果展示[31]1.2.3基于回归的文本行检测方法这类方法通常是从通用的目标检测算法改进而来,可进一步细分为Onestage方法[25],[32]或Twostage方法[22],[28]。Onestage方法直接回归文本框的坐标,Twostage方法包含产生候选文本区域的阶段和精细化文本框的阶段。Twostage的方法通常能够取得较高的准确率,但也有着较高的计算力需求。文本行和通常的目标检测的目标不同,文本行在图像中以多种不规则的形状和长宽比例出现。针对这种情况,Liao等人在2017年提出了TextBoxes算法[33],该算法通过修改卷积核和anchor的形状,来适应形状多变的文本区域。进一步的,2018年Liao等人提出RotationSensitiveRegressionDetector(RSDD)算法[34],该算法为了充分利用图像中旋转不变的特征,主动采用旋转的卷积核,增强了对各种方向的文本行的检测效果,但也存在着无法穷尽所有开放环境下的文本行形状的缺陷。2017年Zhou等人提出的EAST算法是基于回归的文本行检测算法的代表[35],EAST不需要产生文本区域的候选框,该算法只有两步简洁的流程,取消了中间的候选区域聚合、文本分词等操作,通过全卷积网络直接预测文本区域的坐标,并降低传统NMS算法的时间复杂度达到了实时检测的效果。也有一些方法同时利用了回归和分割两种方法的优势,2017年He等人提出的SSTD算法[36],通过在特征图上使用注意力机制,减少无关背景的干扰,增强和文本相关的区域。当前文本行检测领域还有更多新算法不断涌现,在公开的数据集上的记录不断被刷新,不少算法为了适应移动互联网时代朝着网络结构轻量化和部署简便化的
电子科技大学硕士学位论文6趋势发展,并且在准确性和快速性之间取得了良好的平衡。图1-4EAST算法检测结果示意图[35]1.3本文的主要贡献和创新点为了检测任意形状的文本行区域,本文基于分割的方法来研究这个问题。本文聚焦于文本行检测任务的快速性和准确性之间的平衡,研究重点如下:快速性:为了降低算法运行耗时,提高每秒处理的帧数,达到实用的目标,本文采用轻型的主干网络——Resnet-18[37]。但采用轻型的主干网络会导致提取到的特征不够充分,为了增强对小目标和大目标的检测能力,本文基于传统编码器-解码器型的特征提取网络结构,做出了轻量化的改进,提出了CFPM特征增强网络,同时复用了该特征增强模块,在强化特征的表达能力的同时,减少了运算量。准确性:为了获得较高的F-measure,本文使用了人工合成的数据来得到预训练模型,改进了DB语义分割模块的loss函数设计。在语义分割分支的设计中,本文同时使用基于kernel的监督标签和基于mask的监督标签,既避免了一些边界标注可能不够精细情况,又能够处理任意形状的文本区域。另外和重型特征提取主干网络相比,轻量的主干网络有着特征描述不足的缺陷,为了弥补这个缺点,本文使用可形变卷积替换传统Resnet-18网络的卷积算子。1.4本文的章节安排本文的内容安排如下:第一章:绪论。首先回顾了自然场景下文本行检测问题的研究历史和其在实际应用中重要且基础的作用,其次简要说明了本领域内面临的复杂难题,然后阐述了本研究领域内近年来飞速发展的现状和取得的显著成绩,最后总结本文的主要
【参考文献】:
博士论文
[1]基于图像分析和深度学习的船名标识字符检测与识别研究[D]. 刘宝龙.浙江大学 2018
硕士论文
[1]基于深度学习的税务票据自动识别系统的研究及实现[D]. 汤雷雷.中国科学院大学(中国科学院人工智能学院) 2019
[2]基于深度学习的路标识别系统研究[D]. 陈林.华东师范大学 2019
本文编号:3224456
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3224456.html
最近更新
教材专著