基于2D注意力机制的不规则场景文本识别算法
发布时间:2021-07-03 00:57
识别不规则场景文本是光学字符识别(OCR)问题中较为困难的子问题,该问题对学术界所提出的字符识别算法非常具有挑战性。目前,工业上实际应用的算法分为三类:将不规则场景文本通过薄板样条函数插值(thin plate splines)成规则场景文本后,再进行识别,即由2D布局转成1D布局;提取2D图像特征,通过卷积神经网络和带有循环注意力机制神经网络,降维成1D特征序列,再进行识别;将2D图像转换为1D特征序列,然后通过从自然语言处理领域借鉴过来的联结主义时间分类器(connectionist temporal classification)算法,进行识别。尽管上述方法取得了较好的表现,但是准确率和鲁棒性仍然受限于2D到1D转换过程中空间信息的丢失。本文将2D布局的不规则场景文本通过2D注意力机制,直接预测字符序列。本文提出将不规则场景文本识别分为2D特征提取模块、关系注意力模块和并行注意力模块,共计三个模块。其中,对于2D特征提取模块,本文将在现有文本图像2D特征提取算法的基础上,进行算法改进,在获取上下文语义信息的同时,保留2D空间信息,避免了2D到1D转换过程中,空间信息的丢失,该部分...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
基于单个字符的识别方法
基于单词分类的识别方法
图 1-4 基于注意力机制的识别方法[14]场景文本识别,不规则场景文本识别也吸引了很多注意力,成为研究]等人提出用联合的网络去识别不规则场景文本。首先
本文编号:3261535
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
基于单个字符的识别方法
基于单词分类的识别方法
图 1-4 基于注意力机制的识别方法[14]场景文本识别,不规则场景文本识别也吸引了很多注意力,成为研究]等人提出用联合的网络去识别不规则场景文本。首先
本文编号:3261535
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3261535.html
最近更新
教材专著