基于新型CNN实例分割算法的文本行分析关键技术研究
发布时间:2021-01-18 16:53
对文档图像的自动处理能大大减轻人的劳动。文档图像的文本行分割是字符识别、关键词检索等文档分析和识别系统的重要部分,是提升字符识别效果的关键,对文档的数字化存储来说意义非凡。对于无约束的手写文档图像,其文本行之间的交叠,文本字符大小不一、以及文本行不同的倾斜角度和不同程度的弯曲等,都给手写文档行的分割造成了困难,因此,无约束文档图像的文本行分割仍然是一个值得研究的问题。近年来,深度学习技术在图像分割等领域取得了令人瞩目的成就。基于卷积神经网络的图像分割方法犹如雨后春笋般大量涌现。针对手写文档图像的文本行分割,本文提出两种基于深度卷积神经网络的文本行分割方法,结合后处理操作,能够有效地处理文本行分割中存在的粘连、倾斜及字符大小不一等问题。本文主要工作如下:第一,提出一种基于语义分割的文本行提取方法,将文档图像分为文本主体区域和背景区域,主干网络采用经典的VGG16,通过增加批量归一化层及采用空洞卷积对其进行改进,用跳跃连接的方式结合浅层特征信息,构建了用于语义分割的全卷积网络,对卷积网络输出的概率图进行二值化,得到不同文本行的文本主体区域,结合提取的结果,依据最近邻原则对文本连通部件进行分...
【文章来源】:西安理工大学陕西省
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
文档内容提取的一般过程
文档图像预处理与卷积神经网络介绍72文档图像预处理与卷积神经网络介绍文档图像的二值化在文档图像的自动处理过程中意义非凡,是文档分析系统的重要预处理步骤。历史文档在保存的过程中会受到人为或者外界因素的影响而出现退化,例如,古籍文献会遭受非人为因素的侵蚀和造成文档质量低下,例如现墨水扩散、退色、起皱等现象。在将文档扫描为图像的过程中,图像的扭曲,或者由于光照的因素而产生对比度变化以及灯光变化产生的噪声等都会造成扫描图像的质量下降。不同原因造成的低质量文档图像如图2-1所示。本章主要介绍卷积神经网络的基础及文档图像的预处理方法,并给出文本行分割算法的评价标准。图2-1低质量文档图像Figure2-1Degradeddocumentimages2.1卷积神经网络基础2.1.1卷积神经网络整体结构卷积神经网络(convolutionalneuralnetwork,CNN)主要用来处理时间序列、图像等具有网格结构的数据[41]。上世纪80年代就有相关学者展开了这方面的研究,YannLeCun等人构建的LeNet-5是现代卷积神经网络的雏形。GPU等硬件设备的更新发展以及许多深度学习开源框架的出现为卷积网络的应用提供了基矗2012年,著名的AlexNet的提出再次提升了其关注度,AlesNet的贡献在于采用了ReLu,该网络获得了ILSVRC的第一名,从那以后,深度学习技术开始在许多领域崭露头角,屡屡在各种计算机视觉比赛中
西安理工大学硕士学位论文8获得令人瞩目的成绩。如图2-2所示为一个标准的卷积神经网络,输入图像通过一系列的卷积、激活以及池化操作,最后利用全连接层进行分类。首先对神经网络进行简单介绍。图2-2标准卷积神经网络Figure2-2Astandardconvolutionalneuralnetwork(1)神经网络(neuralnetwork)该模型的目标是通过学习参数的值,来近似某个函数。图2-3所示为一个人工神经元模型,该模型包含n个输入12,...nxxx,n个权值12,...nwww,b和y分别表示偏置和输出。该神经元接收一个向量作为输入,得到一个标量输出,其计算如式(2.1)所示,其中f()表示激活函数,W和X分别为表示权值和输入。图2-3人工神经元模型Figure2-3Modelofartificialneuron()()TiiiyfWXbfwxb(2.1)图2-4所示的多层神经网络,最左侧为输入层神经元,第二层和第三层为隐层,最右侧为输出层神经元。每一层的输入输出均可看作向量。具有一个隐含层的神经网络称之为浅层神经网络,具有一个以上隐含层的神经网络称之为深度神经网络。分类网络一般包含特征提取功能和分类功能,分别由卷积层和全连接层来实现相应的功能。此外,全连接神经网络也可单独用于分类任务。
【参考文献】:
期刊论文
[1]基于深度学习的语义分割问题研究综述[J]. 张祥甫,刘健,石章松,吴中红,王智. 激光与光电子学进展. 2019(15)
[2]回归——聚类联合框架下的手写文本行提取[J]. 朱健菲,应自炉,陈鹏飞. 中国图象图形学报. 2018(08)
[3]基于高阶相关聚类的脱机手写文本行分割[J]. 殷亚林,刘爱民,周祥东. 华中师范大学学报(自然科学版). 2017(01)
[4]基于图聚类的脱机手写文档图像文本行分割[J]. 黄亮,殷飞,陈庆虎. 华中科技大学学报(自然科学版). 2014(03)
[5]基于分段式前景涂抹和背景细化的文本行分割[J]. 易晓芳,卡米力·木依丁,艾斯卡尔·艾木都拉. 计算机工程. 2013(05)
硕士论文
[1]基于图论的扫描图像文本行分割与矫正[D]. 钟巧.湖南大学 2017
本文编号:2985301
【文章来源】:西安理工大学陕西省
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
文档内容提取的一般过程
文档图像预处理与卷积神经网络介绍72文档图像预处理与卷积神经网络介绍文档图像的二值化在文档图像的自动处理过程中意义非凡,是文档分析系统的重要预处理步骤。历史文档在保存的过程中会受到人为或者外界因素的影响而出现退化,例如,古籍文献会遭受非人为因素的侵蚀和造成文档质量低下,例如现墨水扩散、退色、起皱等现象。在将文档扫描为图像的过程中,图像的扭曲,或者由于光照的因素而产生对比度变化以及灯光变化产生的噪声等都会造成扫描图像的质量下降。不同原因造成的低质量文档图像如图2-1所示。本章主要介绍卷积神经网络的基础及文档图像的预处理方法,并给出文本行分割算法的评价标准。图2-1低质量文档图像Figure2-1Degradeddocumentimages2.1卷积神经网络基础2.1.1卷积神经网络整体结构卷积神经网络(convolutionalneuralnetwork,CNN)主要用来处理时间序列、图像等具有网格结构的数据[41]。上世纪80年代就有相关学者展开了这方面的研究,YannLeCun等人构建的LeNet-5是现代卷积神经网络的雏形。GPU等硬件设备的更新发展以及许多深度学习开源框架的出现为卷积网络的应用提供了基矗2012年,著名的AlexNet的提出再次提升了其关注度,AlesNet的贡献在于采用了ReLu,该网络获得了ILSVRC的第一名,从那以后,深度学习技术开始在许多领域崭露头角,屡屡在各种计算机视觉比赛中
西安理工大学硕士学位论文8获得令人瞩目的成绩。如图2-2所示为一个标准的卷积神经网络,输入图像通过一系列的卷积、激活以及池化操作,最后利用全连接层进行分类。首先对神经网络进行简单介绍。图2-2标准卷积神经网络Figure2-2Astandardconvolutionalneuralnetwork(1)神经网络(neuralnetwork)该模型的目标是通过学习参数的值,来近似某个函数。图2-3所示为一个人工神经元模型,该模型包含n个输入12,...nxxx,n个权值12,...nwww,b和y分别表示偏置和输出。该神经元接收一个向量作为输入,得到一个标量输出,其计算如式(2.1)所示,其中f()表示激活函数,W和X分别为表示权值和输入。图2-3人工神经元模型Figure2-3Modelofartificialneuron()()TiiiyfWXbfwxb(2.1)图2-4所示的多层神经网络,最左侧为输入层神经元,第二层和第三层为隐层,最右侧为输出层神经元。每一层的输入输出均可看作向量。具有一个隐含层的神经网络称之为浅层神经网络,具有一个以上隐含层的神经网络称之为深度神经网络。分类网络一般包含特征提取功能和分类功能,分别由卷积层和全连接层来实现相应的功能。此外,全连接神经网络也可单独用于分类任务。
【参考文献】:
期刊论文
[1]基于深度学习的语义分割问题研究综述[J]. 张祥甫,刘健,石章松,吴中红,王智. 激光与光电子学进展. 2019(15)
[2]回归——聚类联合框架下的手写文本行提取[J]. 朱健菲,应自炉,陈鹏飞. 中国图象图形学报. 2018(08)
[3]基于高阶相关聚类的脱机手写文本行分割[J]. 殷亚林,刘爱民,周祥东. 华中师范大学学报(自然科学版). 2017(01)
[4]基于图聚类的脱机手写文档图像文本行分割[J]. 黄亮,殷飞,陈庆虎. 华中科技大学学报(自然科学版). 2014(03)
[5]基于分段式前景涂抹和背景细化的文本行分割[J]. 易晓芳,卡米力·木依丁,艾斯卡尔·艾木都拉. 计算机工程. 2013(05)
硕士论文
[1]基于图论的扫描图像文本行分割与矫正[D]. 钟巧.湖南大学 2017
本文编号:2985301
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2985301.html