自然场景下端对端文本识别研究
发布时间:2021-07-12 21:49
文本识别及其相关问题一直都是计算机视觉领域的热点与难点,其技术已普遍应用于语言翻译、辅助驾驶、地理定位、图像检索等诸多方面,早在几十年前科研工作者们就开始了相关研究。虽然针对文档图像的识别技术已经日渐成熟,但在场景图像上仍然面临着巨大的挑战。多变的表现形式使得场景文本在字体、尺寸、形状、颜色、排版等存在着各式各样的组合,而复杂的背景环境和不受限的成像条件又给文本识别带来了更大的困难。本文就场景图像中的文本检测、识别及其相关问题展开全面和深入的研究,重点关注于简洁、高效的思路或方法。旨在通过这些工作能对研究现状中存在的不足提出新的解决方案,并对其在相关场景下进行验证和部署,以展现其良好的通用性和实用性。本文的研究工作主要分为以下几点:(1)为减少对锚框设计的依赖,本文提出了一种简单、高效的实时文本检测网络,它在每个检测位置仅需设定一个基本的参考框。该网络的特点在于将学习机制引入到单阶段检测框架中,将经回归优化后的学习锚框代替初始锚框进入到最终预测中。该网络模型在多个公开测试集中均取得了优秀的检测精度,并且在检测速度上超越了同期所有基于锚框的检测方法。(2)本文提出了一种不依赖于任何先验知...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:118 页
【学位级别】:博士
【部分图文】:
文本检测与识别的应用示例
第一章绪论图1-3外部因素对成像质量的干扰排版规律、显示清晰。然而场景中的文本则多用于指导、宣传、警示、告知等需要配合不同的艺术表现形式以达到吸引人们注意的目的。所以场景文本在其字体、尺寸、形状、颜色、纹理、排版上等都存在着各式各样的组合,而且不同语种的搭配使用则是更为常见。因此,传统的手工设计特征在面对多变的文字式样时并不能对其进行较好的特征描述,致使与其搭配的浅层分类模型的识别精度也普遍不高。(2)成像的复杂性。文档图像中的背景区域多为单一色调且较为纯净,因此不会对文本的定位和识别产生过多的干扰,但在场景图像中会变得异常复杂。首先自然场景中的视觉元素种类繁多,存在着各种形状与纹理都与文字极度接近的干扰项。干扰项的存在使得浅层分类模型很难将二者进行有效的区分,导致即使是成熟的商业系统对场景文本的识别率也不尽如人意。另外,由于场景图像一般是在非受限条件下拍摄,受到各种主观或客观的因素影响,容易产生畸变、模糊、高光、遮挡等导致成像质量的不理想,如图1-3所示,这也给文本的定位与分割带来了更大的麻烦。虽然场景文本的检测与识别面临着诸多困难,但其重要的科研价值和广阔的应用前景使其一直受到研究者们的广泛关注。2012年后,随着深度学习技术[2]开始渗透到计算视觉领域的方方面面,其领域内的诸多问题都迎来了重大的变革。Krizhevsky等人[3]利用深度卷积神经网络,在ImageNet[4]数据集上将top-5的错误识别率从26.2%大幅降低到了15.3%;Girshick等人[5]利用区域卷积神经网络在VOC2012[6]目标检测数据集上的均值平均精度超过同期最好的检测模型约30%;Long等人[7]利用全卷积神经网络在VOC2011[8]语义分割竞赛中相较于历史最好5
电子科技大学博士学位论文成绩提升了20%。此外,在如语音识别[9]、机器翻译[10]、人机博弈[11]等其他领域,基于深度学习的相关技术也都取得了突破性的进展。本文基于深度学习技术对场景图像中的文本检测、识别以及相关问题展开一系列的讨论和研究,重点关注于简洁、高效的检测识别算法或模型。旨在通过这些研究提出一整套完整的端对端文本识别系统,并在相关实际应用场景下进行部署和验证,以展现其具有良好的通用性和实用性。1.2相关研究现状完整的场景文本识别通常包含两个子任务:文本检测与文本识别,如图1-4所示。类似于通用目标检测,文本检测也是通过输出包围框(boundingboxes)的形式去定位到图中存在的每个文本实例,但由于场景中存在较多不同方向排列的字符序列,因此在场景文本检测中更多的是以四边形的形式来表示包围框;文本识别模块类似于自然语言处理中的语音识别,在计算机系统中都是以字符串(strings)的形式作为输出,代表其对应源数据中的内容。二者仅在源数据的形式上有所不同,前者为数字图像,后者为语音信号。每项子任务都是计算机视觉的研究分支,如果将检测和识别整合到一起,则称之为端对端的文本识别。场景文本检测与识别及其相关问题近年来受到了学术界和工业界的广泛关注,并且积累了大量的研究成果,本节将选取其中比较具有代表性的工作进行简单的阐述和总结。图1-4场景文本识别流程。绿色虚线框代表场景文本检测,绿色实线框为其最终输出;黄色虚线框代表场景文本识别模块,黄色字符串为其最终输出;蓝色虚线框代表端对端识别。1.2.1场景文本检测1.2.1.1相关工作早期的场景文本检测工作都专注于对单个字符进行提取,并根据预定义规则将提取到的字符连接组合成为文本。对于字符和非字符区域的区分主要是利?
本文编号:3280722
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:118 页
【学位级别】:博士
【部分图文】:
文本检测与识别的应用示例
第一章绪论图1-3外部因素对成像质量的干扰排版规律、显示清晰。然而场景中的文本则多用于指导、宣传、警示、告知等需要配合不同的艺术表现形式以达到吸引人们注意的目的。所以场景文本在其字体、尺寸、形状、颜色、纹理、排版上等都存在着各式各样的组合,而且不同语种的搭配使用则是更为常见。因此,传统的手工设计特征在面对多变的文字式样时并不能对其进行较好的特征描述,致使与其搭配的浅层分类模型的识别精度也普遍不高。(2)成像的复杂性。文档图像中的背景区域多为单一色调且较为纯净,因此不会对文本的定位和识别产生过多的干扰,但在场景图像中会变得异常复杂。首先自然场景中的视觉元素种类繁多,存在着各种形状与纹理都与文字极度接近的干扰项。干扰项的存在使得浅层分类模型很难将二者进行有效的区分,导致即使是成熟的商业系统对场景文本的识别率也不尽如人意。另外,由于场景图像一般是在非受限条件下拍摄,受到各种主观或客观的因素影响,容易产生畸变、模糊、高光、遮挡等导致成像质量的不理想,如图1-3所示,这也给文本的定位与分割带来了更大的麻烦。虽然场景文本的检测与识别面临着诸多困难,但其重要的科研价值和广阔的应用前景使其一直受到研究者们的广泛关注。2012年后,随着深度学习技术[2]开始渗透到计算视觉领域的方方面面,其领域内的诸多问题都迎来了重大的变革。Krizhevsky等人[3]利用深度卷积神经网络,在ImageNet[4]数据集上将top-5的错误识别率从26.2%大幅降低到了15.3%;Girshick等人[5]利用区域卷积神经网络在VOC2012[6]目标检测数据集上的均值平均精度超过同期最好的检测模型约30%;Long等人[7]利用全卷积神经网络在VOC2011[8]语义分割竞赛中相较于历史最好5
电子科技大学博士学位论文成绩提升了20%。此外,在如语音识别[9]、机器翻译[10]、人机博弈[11]等其他领域,基于深度学习的相关技术也都取得了突破性的进展。本文基于深度学习技术对场景图像中的文本检测、识别以及相关问题展开一系列的讨论和研究,重点关注于简洁、高效的检测识别算法或模型。旨在通过这些研究提出一整套完整的端对端文本识别系统,并在相关实际应用场景下进行部署和验证,以展现其具有良好的通用性和实用性。1.2相关研究现状完整的场景文本识别通常包含两个子任务:文本检测与文本识别,如图1-4所示。类似于通用目标检测,文本检测也是通过输出包围框(boundingboxes)的形式去定位到图中存在的每个文本实例,但由于场景中存在较多不同方向排列的字符序列,因此在场景文本检测中更多的是以四边形的形式来表示包围框;文本识别模块类似于自然语言处理中的语音识别,在计算机系统中都是以字符串(strings)的形式作为输出,代表其对应源数据中的内容。二者仅在源数据的形式上有所不同,前者为数字图像,后者为语音信号。每项子任务都是计算机视觉的研究分支,如果将检测和识别整合到一起,则称之为端对端的文本识别。场景文本检测与识别及其相关问题近年来受到了学术界和工业界的广泛关注,并且积累了大量的研究成果,本节将选取其中比较具有代表性的工作进行简单的阐述和总结。图1-4场景文本识别流程。绿色虚线框代表场景文本检测,绿色实线框为其最终输出;黄色虚线框代表场景文本识别模块,黄色字符串为其最终输出;蓝色虚线框代表端对端识别。1.2.1场景文本检测1.2.1.1相关工作早期的场景文本检测工作都专注于对单个字符进行提取,并根据预定义规则将提取到的字符连接组合成为文本。对于字符和非字符区域的区分主要是利?
本文编号:3280722
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3280722.html