基于深度学习的场景文本提取和识别研究
发布时间:2021-07-07 11:20
场景文本作为计算机视觉领域最为活跃的研究对象之一,现实生活中许多应用技术都与其密切相关,比如自动翻译、盲人导读、车牌识别等。当前,文档类文本的识别精度已高达99%,而自然场景图像中的文本由于字体多样性,文本多方向,图像分辨率低等因素,使得自然场景文本的提取和识别成为计算机视觉领域一项极具挑战性的任务。因此,本学位论文针对自然场景文本的提取和识别展开了较为深入的研究,具体研究内容总结如下:1.研究了一种基于分割的场景文本提取算法。考虑到使用人工进行像素级文本标注通常非常昂贵而且耗时,而现有的数据集中又包含了大量的文本框标注信息,基于此,提出采用文本框标注作为辅助数据用于训练。为了实现这个目标,提出一个双任务相互引导网络,该网络共享一个编码器,两个解码器分别输出像素级文本分割和文本框分割。两个解码器的输出作为彼此的引导信息,像素级文本分割解码器的输出可以作为文本框分割解码器的引导信息提高文本框分割的性能,反之亦然。在标准数据集上的实验表明,该算法提出的相互引导网络可有效地提取文本信息。同时,利用得到的像素分割结果可以进一步提升文本识别性能。2.研究了一种任意方向的场景文本识别算法。该算法首...
【文章来源】:重庆邮电大学重庆市
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
文档类图像
重庆邮电大学硕士学位论文第1章绪论1第1章绪论1.1研究背景与意义随着智能手机、数字图像捕获设备的流行,产生了海量的图像。图像中的文本可为我们提供大量有效的信息。从场景图像中提取出来的文本信息,可运用于盲人导读、自动翻译、车牌识别等现实场景。因此,对图像中的文本信息进行数字化处理具有十分重要的现实意义。针对文本信息数字化的研究主要分为两类。一类是传统的光学字符识别(OpticalCharacterRecognition,OCR)[1,2],它主要针对白底黑字、排列整齐的文档类文本,如图1.1所示。光学字符识别可以达到99%的识别率,目前已经有了十分成熟的运用。另一类是场景文本,场景文本是指在任意场景使用成像设备拍摄的图像上的文本信息。由于场景文本的背景复杂,识别难度极大,如图1.2所示,直接使用OCR技术无法解决识别任务,因此,越来越多的学者将目光投入到这一研究中。图1.1文档类图像图1.2场景文本图像
重庆邮电大学硕士学位论文第1章绪论31.2.1场景文本提取的难点场景文本提取面临着巨大的挑战[5-7]。主要挑战包含以下几个方面:1.图像质量参差不齐由于拍摄过程存在不确定性,可能带来一系列的人为影响,诸如:黑暗环境下的过曝、拍摄时由于抖动造成的模糊形变、拍摄的文本区域有遮挡,或者是图像本身分辨率低等,如图1.3所示。这些都对文本信息提取增加了难度。图1.3场景文本图像的质量参差不齐2.场景复杂自然场景中的文字可能出现在任何地方,诸如:石头、木板、衣物等,如图1.4所示。这些情况可能造成文本跟背景区分度低,从而增加文本信息的提取难度。图1.4场景文本图像的背景复杂
【参考文献】:
期刊论文
[1]FACLSTM:ConvLSTM with focused attention for scene text recognition[J]. Qingqing WANG,Ye HUANG,Wenjing JIA,Xiangjian HE,Michael BLUMENSTEIN,Shujing LYU,Yue LU. Science China(Information Sciences). 2020(02)
本文编号:3269540
【文章来源】:重庆邮电大学重庆市
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
文档类图像
重庆邮电大学硕士学位论文第1章绪论1第1章绪论1.1研究背景与意义随着智能手机、数字图像捕获设备的流行,产生了海量的图像。图像中的文本可为我们提供大量有效的信息。从场景图像中提取出来的文本信息,可运用于盲人导读、自动翻译、车牌识别等现实场景。因此,对图像中的文本信息进行数字化处理具有十分重要的现实意义。针对文本信息数字化的研究主要分为两类。一类是传统的光学字符识别(OpticalCharacterRecognition,OCR)[1,2],它主要针对白底黑字、排列整齐的文档类文本,如图1.1所示。光学字符识别可以达到99%的识别率,目前已经有了十分成熟的运用。另一类是场景文本,场景文本是指在任意场景使用成像设备拍摄的图像上的文本信息。由于场景文本的背景复杂,识别难度极大,如图1.2所示,直接使用OCR技术无法解决识别任务,因此,越来越多的学者将目光投入到这一研究中。图1.1文档类图像图1.2场景文本图像
重庆邮电大学硕士学位论文第1章绪论31.2.1场景文本提取的难点场景文本提取面临着巨大的挑战[5-7]。主要挑战包含以下几个方面:1.图像质量参差不齐由于拍摄过程存在不确定性,可能带来一系列的人为影响,诸如:黑暗环境下的过曝、拍摄时由于抖动造成的模糊形变、拍摄的文本区域有遮挡,或者是图像本身分辨率低等,如图1.3所示。这些都对文本信息提取增加了难度。图1.3场景文本图像的质量参差不齐2.场景复杂自然场景中的文字可能出现在任何地方,诸如:石头、木板、衣物等,如图1.4所示。这些情况可能造成文本跟背景区分度低,从而增加文本信息的提取难度。图1.4场景文本图像的背景复杂
【参考文献】:
期刊论文
[1]FACLSTM:ConvLSTM with focused attention for scene text recognition[J]. Qingqing WANG,Ye HUANG,Wenjing JIA,Xiangjian HE,Michael BLUMENSTEIN,Shujing LYU,Yue LU. Science China(Information Sciences). 2020(02)
本文编号:3269540
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3269540.html
最近更新
教材专著