基于语义分割压缩编码的中文文本识别
发布时间:2021-10-18 07:40
图像文本识别作为环境感知型的一种计算机视觉任务,广泛用于自动化纸质文档识别、自动驾驶和场景语义理解等任务中。近些年,基于深度学习的文本识别方法逐渐成为研究人员关注的热点。与传统文本识别方法不同,现有主流的处理范式是将文本图片视为一个整体,直接对图片进行特征提取,最后通过特征解码得到文本识别的结果。然而,最近有研究表明上述方法在特征提取的过程中,会丢失字符的空间结构信息。因此通过保留二维信息的一种基于语义分割的文本识别方法逐渐被研究人员所关注。由于中文文字类别较多,基于语义分割的文本识别方法在中文文本识别任务上存在模型空间占用大,模型训练速度慢等问题。针对此问题,本文提出通过压缩语义分割的编码空间,来减少模型空间占用。同时通过将中文字符结构信息融入编码,来增加编码的语义信息。据调研,本文是首个在语义分割模型上使用非one-hot编码的工作,因此为快速验证本文提出的编码在语义分割模型上的可训练性,本课题选择简单场景下的离线中文单字手写体数据对编码压缩效果进行验证。结果表明基于汉字结构的分层编码压缩方式,既能有效的降低模型存储空间,又达到了较高的识别准确率。自然场景中,文本识别往往需要同时对...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
AlexNet网络架构[36]
哈尔滨工业大学工程硕士学位论文竞赛上设计了一种名为VGG[37]的网络架构。以VGG-16架构为例,其中有5个卷积块共16层卷积层,每个卷积层都使用3×3的卷积核,以及1×1的卷积步长。与AlexNet相比,VGG-16在加深模型深度的同时,也由于大量使用小卷积核的原因减少了模型整体的参数量。VGG-16的架构如图2-2所示。图2-2VGG-16网络架构[37]VGG架构证明了越深的模型越有可能获得更好的识别效果,然而梯度消失或是梯度爆炸问题使得深层网络比较难以训练。因此,He等人[38]设计了一种名为ResNet的网络结构,通过在卷积块之间增加跳跃连接的方式将上一层卷积层的输出结果直接送入下一层卷积层来解决深层网络的训练问题。跳跃连接的结构如图2-3所示。通过跳跃连接,ResNet的模型层数可以更深,同时其参数量也比VGG-16更少,上述优势使ResNet成为大多数计算机视觉任务的骨架网络。图2-3跳跃连接结构[38]研究人员除了通过增加网络深度的方式来改进模型之外,Christian等人[39]通过扩展网络的宽度设计了一种名为GoogLeNet的网络结构。inception作为GoogLeNet的基本组成结构,每个inception中包含了四种不同尺寸的卷积核,分别以不同大小的感受野来从输入中提取特征,最后通过1×1卷积核将上述四种卷积核的输出拼接在一起作为inception的输出,其结构如图2-4所示。因为GoogLeNet-8-
哈尔滨工业大学工程硕士学位论文竞赛上设计了一种名为VGG[37]的网络架构。以VGG-16架构为例,其中有5个卷积块共16层卷积层,每个卷积层都使用3×3的卷积核,以及1×1的卷积步长。与AlexNet相比,VGG-16在加深模型深度的同时,也由于大量使用小卷积核的原因减少了模型整体的参数量。VGG-16的架构如图2-2所示。图2-2VGG-16网络架构[37]VGG架构证明了越深的模型越有可能获得更好的识别效果,然而梯度消失或是梯度爆炸问题使得深层网络比较难以训练。因此,He等人[38]设计了一种名为ResNet的网络结构,通过在卷积块之间增加跳跃连接的方式将上一层卷积层的输出结果直接送入下一层卷积层来解决深层网络的训练问题。跳跃连接的结构如图2-3所示。通过跳跃连接,ResNet的模型层数可以更深,同时其参数量也比VGG-16更少,上述优势使ResNet成为大多数计算机视觉任务的骨架网络。图2-3跳跃连接结构[38]研究人员除了通过增加网络深度的方式来改进模型之外,Christian等人[39]通过扩展网络的宽度设计了一种名为GoogLeNet的网络结构。inception作为GoogLeNet的基本组成结构,每个inception中包含了四种不同尺寸的卷积核,分别以不同大小的感受野来从输入中提取特征,最后通过1×1卷积核将上述四种卷积核的输出拼接在一起作为inception的输出,其结构如图2-4所示。因为GoogLeNet-8-
本文编号:3442485
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
AlexNet网络架构[36]
哈尔滨工业大学工程硕士学位论文竞赛上设计了一种名为VGG[37]的网络架构。以VGG-16架构为例,其中有5个卷积块共16层卷积层,每个卷积层都使用3×3的卷积核,以及1×1的卷积步长。与AlexNet相比,VGG-16在加深模型深度的同时,也由于大量使用小卷积核的原因减少了模型整体的参数量。VGG-16的架构如图2-2所示。图2-2VGG-16网络架构[37]VGG架构证明了越深的模型越有可能获得更好的识别效果,然而梯度消失或是梯度爆炸问题使得深层网络比较难以训练。因此,He等人[38]设计了一种名为ResNet的网络结构,通过在卷积块之间增加跳跃连接的方式将上一层卷积层的输出结果直接送入下一层卷积层来解决深层网络的训练问题。跳跃连接的结构如图2-3所示。通过跳跃连接,ResNet的模型层数可以更深,同时其参数量也比VGG-16更少,上述优势使ResNet成为大多数计算机视觉任务的骨架网络。图2-3跳跃连接结构[38]研究人员除了通过增加网络深度的方式来改进模型之外,Christian等人[39]通过扩展网络的宽度设计了一种名为GoogLeNet的网络结构。inception作为GoogLeNet的基本组成结构,每个inception中包含了四种不同尺寸的卷积核,分别以不同大小的感受野来从输入中提取特征,最后通过1×1卷积核将上述四种卷积核的输出拼接在一起作为inception的输出,其结构如图2-4所示。因为GoogLeNet-8-
哈尔滨工业大学工程硕士学位论文竞赛上设计了一种名为VGG[37]的网络架构。以VGG-16架构为例,其中有5个卷积块共16层卷积层,每个卷积层都使用3×3的卷积核,以及1×1的卷积步长。与AlexNet相比,VGG-16在加深模型深度的同时,也由于大量使用小卷积核的原因减少了模型整体的参数量。VGG-16的架构如图2-2所示。图2-2VGG-16网络架构[37]VGG架构证明了越深的模型越有可能获得更好的识别效果,然而梯度消失或是梯度爆炸问题使得深层网络比较难以训练。因此,He等人[38]设计了一种名为ResNet的网络结构,通过在卷积块之间增加跳跃连接的方式将上一层卷积层的输出结果直接送入下一层卷积层来解决深层网络的训练问题。跳跃连接的结构如图2-3所示。通过跳跃连接,ResNet的模型层数可以更深,同时其参数量也比VGG-16更少,上述优势使ResNet成为大多数计算机视觉任务的骨架网络。图2-3跳跃连接结构[38]研究人员除了通过增加网络深度的方式来改进模型之外,Christian等人[39]通过扩展网络的宽度设计了一种名为GoogLeNet的网络结构。inception作为GoogLeNet的基本组成结构,每个inception中包含了四种不同尺寸的卷积核,分别以不同大小的感受野来从输入中提取特征,最后通过1×1卷积核将上述四种卷积核的输出拼接在一起作为inception的输出,其结构如图2-4所示。因为GoogLeNet-8-
本文编号:3442485
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3442485.html
最近更新
教材专著