基于深度学习的自然场景文字识别与生成算法研究
发布时间:2021-03-05 04:58
文字是人们进行交流的主要方式,使计算机能够识别图像中的文字内容和让计算机生成包含文字内容的图像一直是科研人员研究的技术之一。同时进行精准的自然场景文字图像识别与生成美观自然场景文字图像具有很高的实用价值。然而,现有场景文字识别算法准确度依然不足,而使计算机生成场景文字图像还没有成熟的技术。因此,本文通过利用深度学习技术,提出基于深度学习原理的自然场景文字的识别与生成方法。本文提出如下方法:一、针对现有场景文字识别精准度不足的问题,本文根据现有Inception网路和Dense Net网络进行改进,融合两种网络提取的特征图。利用卷积神经网络可以有效提取数据的特征,但是网络深度决定了数据特征提取的能力。根据卷积神经网络的特点,本文提出一种将现有Inception网路和Dense Net网络进行改进融合的网络结构,通过设计不同网络结构,提取图像的不同特征进行融合,能够有效获取图像的整体特征与细节特征。其次,利用文本序列具有上下文关系的特点,本文将通过循环神经网络(Recurrent Neural Network,RNN)提取文本上下文信息,同时,利用注意力机制(Attention Mecha...
【文章来源】:河南大学河南省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
含干扰信息的场景文字图像
绪论2(a)(b)(c)图1-1含干扰信息的场景文字图像二、在一幅场景文字图像中可能包含多国语言,多种不同字符形态,并且场景文字的大小也不像文档图像固定不变。同时,不同场景文字的字体以及颜色也各不相同,以及文字亮度、对比度也存在较大差异,如图1-2所示。这些都为场景文字的识别带来了困难。(a)(b)图1-2包含不同语言的场景文字图像三、图像文字可能有着不同的方向、不同的形变等样式变化,图像文字周围可能
绪论3包含多变的干扰信息,包括文字噪声以及背景包含与文字相似的信息,比如草地,围栏,高墙等等,这些都将造成对场景文字识别的影响,如图1-3所示。由于这些因素的存在,对文字识别干扰会很大,需要通过图像预处理手段增强图像的质量。(a)(b)(c)图1-3不同方向的场景文字图像四、场景文字图像数据集在采集时由于其拍摄的角度、距离、方向等原因,以及采集图像时的自然环境,比如天气情况、白昼等,都会对采集的图像产生不同程度的透视变换、仿射变换、残缺、模糊等现象,如图1-4所示。需要通过有效手段对图像进行校正,从而提高文字识别的效果。(a)(b)图1-4模糊、变形的场景文字图像这些原因使得对于光学字符识别的相关技术无法直接在场景文字图像的识别中得以运用。这也是自然场景文字识别具有很大的挑战原因所在。因此寻找一种通用的且有
本文编号:3064618
【文章来源】:河南大学河南省
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
含干扰信息的场景文字图像
绪论2(a)(b)(c)图1-1含干扰信息的场景文字图像二、在一幅场景文字图像中可能包含多国语言,多种不同字符形态,并且场景文字的大小也不像文档图像固定不变。同时,不同场景文字的字体以及颜色也各不相同,以及文字亮度、对比度也存在较大差异,如图1-2所示。这些都为场景文字的识别带来了困难。(a)(b)图1-2包含不同语言的场景文字图像三、图像文字可能有着不同的方向、不同的形变等样式变化,图像文字周围可能
绪论3包含多变的干扰信息,包括文字噪声以及背景包含与文字相似的信息,比如草地,围栏,高墙等等,这些都将造成对场景文字识别的影响,如图1-3所示。由于这些因素的存在,对文字识别干扰会很大,需要通过图像预处理手段增强图像的质量。(a)(b)(c)图1-3不同方向的场景文字图像四、场景文字图像数据集在采集时由于其拍摄的角度、距离、方向等原因,以及采集图像时的自然环境,比如天气情况、白昼等,都会对采集的图像产生不同程度的透视变换、仿射变换、残缺、模糊等现象,如图1-4所示。需要通过有效手段对图像进行校正,从而提高文字识别的效果。(a)(b)图1-4模糊、变形的场景文字图像这些原因使得对于光学字符识别的相关技术无法直接在场景文字图像的识别中得以运用。这也是自然场景文字识别具有很大的挑战原因所在。因此寻找一种通用的且有
本文编号:3064618
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3064618.html