基于深度神经网络的印刷体文字识别
发布时间:2021-04-05 01:55
在信息化社会,人们要处理大量各种类型的文字资料,为了帮助人们快速完成信息录入,文字识别技术应运而生,且具有非常广阔的应用前景。目前市面上比较成熟的印刷体文字识别系统或软件大多只针对某个单一的应用场景,比如发票识别、身份证识别、文档识别等,因此只能识别某一类型的图像和文字,尚缺乏可以识别多种类型多种字体的通用文字识别系统。为此,本文实现了适用于多种类型多种字体的印刷体文字识别算法,识别类型包括书籍、刊物、海报、宣传单、票据等各类含有印刷体文字的纯文本图像,可识别的字体有13种,可识别的字符包括一级、二级汉字及不常用汉字、大小写英文字母、数字和常用标点符号,共6870种字符,支持各类字符混排识别,因此适用范围更加广泛。本文详细阐述了印刷体文字识别技术的算法处理流程,包括图像的倾斜矫正、文本检测、文字识别和结果校验。实现了针对扫描仪、相机等电子设备获取的印刷体文本图像的文字识别算法,并完成了网络的训练。通过扫描仪或相机对纸质文字资料进行采集并生成文本图像,利用数字图像处理技术和深度学习算法完成图像中的文字识别,从而将文字信息快速提取出来,节省了时间和人力成本,在信息处理等方面具有重要的实用价...
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图2-1?LeNet-5网络结构图??CNN有很多优点,首先,将图像直接作为输入,自动完成特征提取过程,免??
on、'3-512???maxpooi???com-3-512?conv3-512?com.3-512?conv3-512?con\3-512?conv3-512??conv3-512?conv3-512?com?3-512?conv3-512?con\3-5I2?conv?3-512??conv?1-512?conv3-512?conv3-512??conv3-512??maxpooi??FC-4UV6??FC-4(JVt>??F(:-K_??soil-max??图2-2?VGG11-VGG19网络架构??2.2循环神经网络??2.2.1循环神经网络概述??当待处理的数据是序列时,卷积神经网络通常不能很好地工作,因为卷积神??经网络是一种前馈网络,各层之间依次向前传递消息。通常情况下,前馈网络会??接受一个输入,通过层与层之间的计算最终输出一个结果,不同的输入之间是不??具有任何联系的,即输入之间彼此独立,因此难以处理内部具有依赖关系的序列??数据。??循环神经网络(RNN)与前馈神经网络最大的不同之处在于,循环网络前后??输入之间存在相互关联。用当前时刻的输入々和前一时刻的输出状态来共同??11??
?山东大学硕士学位论文???预测当前的状态,即\=/({^+1^/1£_1+6)(如图2-3),这样就将前一时??刻的信息传递到当前时刻,从而使前后神经元之间产生关联,也就使循环网络具??备了记忆功能。因此它更适合于处理序列数据,例如文本、语音和视频等,并能??将序列转换成包含语义信息的表示。RNN最早在自然语言处理领域被利用起来,??帮助建立语言模型,比如在语音转文本中,声学模型一般会输出若干个候选词,??语言模型就需要从这些候选词中选择一个可能性最大的作为最终输出结果。另外,??RNN也可用来做文本识别和机器翻译。??^??^??1?tank?|???^?[???V?)??x,-l??图2-3?RNN单元结构图??2.2.2?LSTM?网络??在传统的RNN中,循环单元通常只包含一个简单的激活函数tanh,当权重??矩阵小于1时,在反向传播过程中,各层的导数会逐渐变小,最终导致梯度消失??[29],而当权重矩阵大于1时,由于时间的累计最终会导致梯度爆炸,这就使得该??网络在当前时刻只能获取附近时刻的数据作为输入而很难获得较远时刻的数据,??因此难以处理具有长期依赖性的序列数据。在过去的几年中,RNN取得了显著??的成绩,也正被越来越多的应用到其它领域,但是,由于它的上述局限性,使得??该网络的训练变得非常困难,其应用也受到了限制。而长短时记忆网络(LSTMp^??克服了传统RNN的缺陷,成为目前最受欢迎的循环神经网络。一个LSTM由一??个存储单元和三个门组成(如图2-4),分别是输入门、输出门和遗忘门。存储??单元存储了以前时刻的状态信息。遗忘门的作用是清除上一时刻的信息,决定哪?
【参考文献】:
期刊论文
[1]基于模板匹配法的字符识别算法研究[J]. 李新良. 计算技术与自动化. 2012(02)
[2]汉字识别方法综述[J]. 孙华,张航. 计算机工程. 2010(20)
[3]基于改进Hough变换的文本图像倾斜校正方法[J]. 周冠玮,平西建,程娟. 计算机应用. 2007(07)
[4]印刷体汉字识别技术[J]. 汪芳,康慕宁,李先国. 情报杂志. 2004(02)
[5]光学字符识别技术与展望[J]. 荆涛,王仲. 计算机工程. 2003(02)
[6]Hough变换OCR图象倾斜矫正方法[J]. 瞿洋,杨利平. 中国图象图形学报. 2001(02)
[7]大规模逻辑神经网络印刷体汉字识别系统[J]. 杨国庆,吕军. 计算机应用与软件. 1994(01)
[8]实验性6763个印刷体汉字识别系统[J]. 吴佑寿,丁晓青,朱夏宁,吴中权. 电子学报. 1987(05)
硕士论文
[1]基于深度学习的端到端场景文本识别方法研究[D]. 刘衍平.华南理工大学 2018
[2]自然场景中文字识别关键技术研究[D]. 何树有.大连理工大学 2017
[3]基于卷积神经网络的车牌识别技术研究[D]. 李达.湘潭大学 2016
[4]印刷体汉字识别系统研究与实现[D]. 刘聚宁.大连理工大学 2011
[5]印刷体汉字识别预处理的研究[D]. 王宏.大连理工大学 2008
[6]聚类分析及其在大类别汉字识别中的应用[D]. 杨军.华南理工大学 2007
[7]印刷体汉字识别系统的研究与实现[D]. 梁涌.西北工业大学 2006
本文编号:3118908
【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图2-1?LeNet-5网络结构图??CNN有很多优点,首先,将图像直接作为输入,自动完成特征提取过程,免??
on、'3-512???maxpooi???com-3-512?conv3-512?com.3-512?conv3-512?con\3-512?conv3-512??conv3-512?conv3-512?com?3-512?conv3-512?con\3-5I2?conv?3-512??conv?1-512?conv3-512?conv3-512??conv3-512??maxpooi??FC-4UV6??FC-4(JVt>??F(:-K_??soil-max??图2-2?VGG11-VGG19网络架构??2.2循环神经网络??2.2.1循环神经网络概述??当待处理的数据是序列时,卷积神经网络通常不能很好地工作,因为卷积神??经网络是一种前馈网络,各层之间依次向前传递消息。通常情况下,前馈网络会??接受一个输入,通过层与层之间的计算最终输出一个结果,不同的输入之间是不??具有任何联系的,即输入之间彼此独立,因此难以处理内部具有依赖关系的序列??数据。??循环神经网络(RNN)与前馈神经网络最大的不同之处在于,循环网络前后??输入之间存在相互关联。用当前时刻的输入々和前一时刻的输出状态来共同??11??
?山东大学硕士学位论文???预测当前的状态,即\=/({^+1^/1£_1+6)(如图2-3),这样就将前一时??刻的信息传递到当前时刻,从而使前后神经元之间产生关联,也就使循环网络具??备了记忆功能。因此它更适合于处理序列数据,例如文本、语音和视频等,并能??将序列转换成包含语义信息的表示。RNN最早在自然语言处理领域被利用起来,??帮助建立语言模型,比如在语音转文本中,声学模型一般会输出若干个候选词,??语言模型就需要从这些候选词中选择一个可能性最大的作为最终输出结果。另外,??RNN也可用来做文本识别和机器翻译。??^??^??1?tank?|???^?[???V?)??x,-l??图2-3?RNN单元结构图??2.2.2?LSTM?网络??在传统的RNN中,循环单元通常只包含一个简单的激活函数tanh,当权重??矩阵小于1时,在反向传播过程中,各层的导数会逐渐变小,最终导致梯度消失??[29],而当权重矩阵大于1时,由于时间的累计最终会导致梯度爆炸,这就使得该??网络在当前时刻只能获取附近时刻的数据作为输入而很难获得较远时刻的数据,??因此难以处理具有长期依赖性的序列数据。在过去的几年中,RNN取得了显著??的成绩,也正被越来越多的应用到其它领域,但是,由于它的上述局限性,使得??该网络的训练变得非常困难,其应用也受到了限制。而长短时记忆网络(LSTMp^??克服了传统RNN的缺陷,成为目前最受欢迎的循环神经网络。一个LSTM由一??个存储单元和三个门组成(如图2-4),分别是输入门、输出门和遗忘门。存储??单元存储了以前时刻的状态信息。遗忘门的作用是清除上一时刻的信息,决定哪?
【参考文献】:
期刊论文
[1]基于模板匹配法的字符识别算法研究[J]. 李新良. 计算技术与自动化. 2012(02)
[2]汉字识别方法综述[J]. 孙华,张航. 计算机工程. 2010(20)
[3]基于改进Hough变换的文本图像倾斜校正方法[J]. 周冠玮,平西建,程娟. 计算机应用. 2007(07)
[4]印刷体汉字识别技术[J]. 汪芳,康慕宁,李先国. 情报杂志. 2004(02)
[5]光学字符识别技术与展望[J]. 荆涛,王仲. 计算机工程. 2003(02)
[6]Hough变换OCR图象倾斜矫正方法[J]. 瞿洋,杨利平. 中国图象图形学报. 2001(02)
[7]大规模逻辑神经网络印刷体汉字识别系统[J]. 杨国庆,吕军. 计算机应用与软件. 1994(01)
[8]实验性6763个印刷体汉字识别系统[J]. 吴佑寿,丁晓青,朱夏宁,吴中权. 电子学报. 1987(05)
硕士论文
[1]基于深度学习的端到端场景文本识别方法研究[D]. 刘衍平.华南理工大学 2018
[2]自然场景中文字识别关键技术研究[D]. 何树有.大连理工大学 2017
[3]基于卷积神经网络的车牌识别技术研究[D]. 李达.湘潭大学 2016
[4]印刷体汉字识别系统研究与实现[D]. 刘聚宁.大连理工大学 2011
[5]印刷体汉字识别预处理的研究[D]. 王宏.大连理工大学 2008
[6]聚类分析及其在大类别汉字识别中的应用[D]. 杨军.华南理工大学 2007
[7]印刷体汉字识别系统的研究与实现[D]. 梁涌.西北工业大学 2006
本文编号:3118908
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3118908.html