基于注意力机制的不规则场景文字识别方法研究
发布时间:2021-03-07 16:32
文字,是人类记录思想的符号,是交流信息的工具。文字对人类日常生活的重要性不言而喻。场景文字是指自然场景图像中的文字,路标图像、广告牌图像和车牌图像都携带场景文字。识别自然场景图像中的文字有广泛的应用,如车牌识别、卡证识别和自动驾驶。在几十年前,文字识别的研究主要针对扫描文档文字,经过长期的研究积累,扫描文档文字识别方法日趋成熟。但是场景文字由于背景复杂、文字呈现形式多变、图像质量低等因素,仍面临很多挑战。其中,不规则场景文字因其字符排列不规则和字符旋转变化导致识别非常困难。近年来,基于注意力机制的方法为不规则场景文字识别提供了新思路。基于注意力机制的方法能够精准的定位字符区域的特征,具有很好的解决字符不规则排列问题的潜力。本文基于注意力机制的方法,对不规则场景文字识别展开一系列研究:(1).本文提出一种基于注意力机制并整合Gabor卷积神经网络来处理不规则文本的方法。Gabor卷积神经网络能够提取对于方向变化更鲁棒的特征,它通过将多方向的Gabor滤波器整合到卷积神经网络中得到。序列识别网络是一个基于注意力机制的“编码器-解码器”模型,它利用Gabor卷积神经网络输出的特征序列化的输出...
【文章来源】:中国科学院大学(中国科学院重庆绿色智能技术研究院)重庆市
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
场景文字识别的应用示例
基于注意力机制的不规则场景文字识别方法研究照不均匀的情况,拍摄设备性能问题引起的图像分辨率低、低对比度,拍摄距离较远导致文字尺寸孝拍摄角度变化引起透视形变;2)文本自身多样性引入的挑战。如艺术字、残缺和弯曲排列的文字;3)文本所在环境引入的挑战。如多语言混合、文字遮挡。因此,不规则场景文字的识别还存在很大的研究空间。(a)路牌识别(b)拍照翻译(c)盲人辅助阅读(d)单据识别图1.1场景文字识别的应用示例。Figure1.1ApplicationsofSceneTextRecognition.图1.2场景文字示例。Figure1.2ExampleofSceneText.2
基于注意力机制的不规则场景文字识别方法研究的方法。具体来讲,采用Gabor卷积神经网络(Luan等,2018)提取具有更强的字符旋转不变的特征,然后将Gabor卷机神经网络提取到的特征输入到基于注意力机制(Bahdanau等,2014)的序列识别网络,基于注意力机制的序列识别网络再输出字符序列。本章所提出的框架的示意图如3.3所示。在Gabor卷机神经网络中,卷机滤波器被多个方向的Gabor滤波器调制,调制得到的新滤波器用于提取对字符旋转变化更鲁棒的特征。与多方向编码的方法不同(Cheng等,2018),本章提出的方法通过对卷机滤波器进行调制来处理字符旋转变化的问题,而多方向编码的方法通过旋转和反转特征图来解决字符旋转变换的问题。而且,多方向编码的方法通过旋转和反转特征图得到四个方向的特征序列,从而引入了额外的计算开销,而本章提出的方法不引入额外的计算开销。由于基于注意力机制的序列识别网络存在注意力漂移的问题(如图3.2所示),图中黄色十字表示某个字符注意力的中心点,图下侧是预测结果,红色字符是预测错误的,绿色字符是预测正确的。本章提出一种聚焦注意力模型,它引入一种简单的优化注意力对齐性能的损失函数,只需要标注每个字符中心的横向位置。具体来讲,通过观察注意力权重系数的分布,提出两种优化注意力对齐性能的损失函数,第一种是以注意力中心点与字符标注中心点为变量设计的一种交叉熵损失函数,第二种是以注意力权重系数的分布与标注生成的权重系数分布之间的搬土距离(Rubner等,1998)作为损失函数,两种损失函数在实验数据集上性能相当,但是权重分布特点不一。图3.2注意力漂移现象。Figure3.2Illustrationofattentiondrift.12
本文编号:3069444
【文章来源】:中国科学院大学(中国科学院重庆绿色智能技术研究院)重庆市
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
场景文字识别的应用示例
基于注意力机制的不规则场景文字识别方法研究照不均匀的情况,拍摄设备性能问题引起的图像分辨率低、低对比度,拍摄距离较远导致文字尺寸孝拍摄角度变化引起透视形变;2)文本自身多样性引入的挑战。如艺术字、残缺和弯曲排列的文字;3)文本所在环境引入的挑战。如多语言混合、文字遮挡。因此,不规则场景文字的识别还存在很大的研究空间。(a)路牌识别(b)拍照翻译(c)盲人辅助阅读(d)单据识别图1.1场景文字识别的应用示例。Figure1.1ApplicationsofSceneTextRecognition.图1.2场景文字示例。Figure1.2ExampleofSceneText.2
基于注意力机制的不规则场景文字识别方法研究的方法。具体来讲,采用Gabor卷积神经网络(Luan等,2018)提取具有更强的字符旋转不变的特征,然后将Gabor卷机神经网络提取到的特征输入到基于注意力机制(Bahdanau等,2014)的序列识别网络,基于注意力机制的序列识别网络再输出字符序列。本章所提出的框架的示意图如3.3所示。在Gabor卷机神经网络中,卷机滤波器被多个方向的Gabor滤波器调制,调制得到的新滤波器用于提取对字符旋转变化更鲁棒的特征。与多方向编码的方法不同(Cheng等,2018),本章提出的方法通过对卷机滤波器进行调制来处理字符旋转变化的问题,而多方向编码的方法通过旋转和反转特征图来解决字符旋转变换的问题。而且,多方向编码的方法通过旋转和反转特征图得到四个方向的特征序列,从而引入了额外的计算开销,而本章提出的方法不引入额外的计算开销。由于基于注意力机制的序列识别网络存在注意力漂移的问题(如图3.2所示),图中黄色十字表示某个字符注意力的中心点,图下侧是预测结果,红色字符是预测错误的,绿色字符是预测正确的。本章提出一种聚焦注意力模型,它引入一种简单的优化注意力对齐性能的损失函数,只需要标注每个字符中心的横向位置。具体来讲,通过观察注意力权重系数的分布,提出两种优化注意力对齐性能的损失函数,第一种是以注意力中心点与字符标注中心点为变量设计的一种交叉熵损失函数,第二种是以注意力权重系数的分布与标注生成的权重系数分布之间的搬土距离(Rubner等,1998)作为损失函数,两种损失函数在实验数据集上性能相当,但是权重分布特点不一。图3.2注意力漂移现象。Figure3.2Illustrationofattentiondrift.12
本文编号:3069444
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3069444.html
最近更新
教材专著