基于深度学习的朝鲜古籍中文种辨识方法的研究
发布时间:2020-07-25 21:46
【摘要】:十五世纪后的朝鲜古籍中不仅包含朝鲜文字,还包含汉字、满文、蒙古文等文字,且排版多采用多文种混排形式。朝鲜语古籍这种多文种混排的特点为古籍图像的字符识别和切分带来了困难,影响了朝鲜语古籍的数字化进程。直接识别多文种文字图像会增加字符识别算法的复杂度、降低识别效率和准确率,所以多文种辨识是古籍全文文本数字化的前提和基础。另外,大量研究证明,对于文本图像很难找到一种普适性的版面分析和处理算法。所以,多文种混排古籍图像的字符切分仍是文本切分领域未解决的问题之一,具有一定的研究意义和现实应用价值。为了更好地推进朝鲜语古籍数字化进程,本文在研究古籍图像文种辨识方法的过程中针对朝鲜语古籍多文种混排,字体大小不一,字间距变化大,粘连情况复杂的特点,研究并提出了适用于这类特点的古籍文字切分方法。首先,提出了一种连通域规则和投影法结合的古籍图像列切分算法。该算法不仅能够去除古籍中存在的分隔线,还可对粘连列进行切分。有效地解决了朝鲜语古籍中间隔线存在间断、倾斜或者列之间存在粘连等问题。其次,提出一种基于连通域规则的多步字切分算法,对古籍列图像中的文字先进行粗切分再进行细切分。这种多步字切分算法对多文种混排,字符大小不一,字符横向、纵向混合排版的古籍图像切分效果良好。针对粘连字符个数未知,粘连方向未知的粘连字符图像,本文还提出一种k-means改进的递归滴水粘连字切分算法,实现了复杂粘连文字图像的准确切分。然后,利用切分出的文字图像建立了相似文种古籍文本图像库。最后,本文对相似文种古籍文本图像库中的文字图像进行了字符级别的文种辨识研究,利用深度学习中的Inception-v4卷积神经网络模型实现了的高准确率文种分类,解决了传统机器学习方法对朝、汉相似文种分类错误率高的问题,为进一步研究朝汉字符识别算法提供了准确可靠的数据样本集。实验结果表明,本文研究的朝鲜语古籍列切分算法准确率为97.69%,字符切分算法准确率为87.79%,字符级古籍图像的文种辨识准确率为99.40%。证明本文提出的古籍图像列切分算法和字切分算法能够有效地完成具有多文种且排版复杂的古籍图像的切分工作。同时,本文研究的利用卷积神经网络的文种辨识方法对存在大量噪声的朝、汉相似文种古籍图像具有很好的辨识效果。
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP18
【图文】:
为了得到文种辨识研究的基础研究对象,建立文种辨识数据集,本文设计提逡逑出了适用于多文种复杂排版古籍的文字切分方法用于对朝鲜语古籍进行字符逡逑切分。本文的主要研究内容如图1-2所示,先将朝鲜古籍图像进行字符切分,逡逑然后对字符切分得到的单字符图像进行文种辨识,得到己知文种图像,将其逡逑作为光学字符识别系统的研究对象。逡逑一邋7邋—逡逑
2邋1邋2逡逑2逡逑图2-2邋4邻域示意图逡逑Fig.2-2邋Diagram邋of邋4-connected邋boundary逡逑具有D4=l的像素是像素(x,W的4邻域。p和9之间的棋盘距离D8定义为:逡逑i)8邋=邋max(|x邋-斗邋|少—小逦(2-7)逡逑在这种定义下,距离(Xy)棋盘距离小于或等于2的像素形成了一个以逡逑为中心的方形如下图所示:逡逑2邋2邋2邋2邋2逡逑2邋1112逡逑2邋10邋12逡逑2邋1112逡逑2邋2邋2邋2邋2逡逑图2-3邋8邻域示意图逡逑Fig.2-3邋Diagram邋of邋8-connected邋boundary逡逑具有Z)8=l的像素是像素的8邻域。假设像素点p和g的坐标分别为逡逑(X,>0和(5^),从到^的通路是一组特定的像素序列,通路的坐标序列为:逡逑(2-8)逡逑—12邋—逡逑
逡逑两连通域之间主要有图2-5所示的几种关系,包括相离、包含、交叉,其逡逑中相离关系又可以根据连通域位置关系的不同分为多种情况,比如上下相离,逡逑左右相离等,可根据文字连通域之间的关系对其进行切分。逡逑□逦邋逦邋逦邋逦邋逦逡逑□逡逑□邋□J逦□逡逑逦邋逦□邋□邋逦逡逑□邋□逡逑图2-5连通域关系图逡逑Fig.2-5邋Relation邋diagram邋of邋connected邋boundary逡逑2.2.4投影切分方法逡逑在文字图像中经常使用投影法对文字进行行切分,如果文字竖向书写,逡逑可使用水平投影切分法,如果文字横向书写,可使用垂直投影切分法[67】。垂逡逑直投影就是将图像的中每一个像素按每列求和。垂直投影后,存在文字的部逡逑分投影值大,文字之间的间隔在理想情况下是没有像素的,因此投影值为0。逡逑将投影值为0的点作为切分点对图像进行切分即能完成文字的列切分。但一逡逑般文字之间由于受到噪声影响,会存在一定像素,因此投影值不为0,所以投逡逑影法需要一定的改进才能更好地完成文字列切分工作。常用的改进方法为使逡逑用阈值的投影法。假设将一幅长为width宽为height的文字图像(白底黑字)进逡逑行二值化
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.41;TP18
【图文】:
为了得到文种辨识研究的基础研究对象,建立文种辨识数据集,本文设计提逡逑出了适用于多文种复杂排版古籍的文字切分方法用于对朝鲜语古籍进行字符逡逑切分。本文的主要研究内容如图1-2所示,先将朝鲜古籍图像进行字符切分,逡逑然后对字符切分得到的单字符图像进行文种辨识,得到己知文种图像,将其逡逑作为光学字符识别系统的研究对象。逡逑一邋7邋—逡逑
2邋1邋2逡逑2逡逑图2-2邋4邻域示意图逡逑Fig.2-2邋Diagram邋of邋4-connected邋boundary逡逑具有D4=l的像素是像素(x,W的4邻域。p和9之间的棋盘距离D8定义为:逡逑i)8邋=邋max(|x邋-斗邋|少—小逦(2-7)逡逑在这种定义下,距离(Xy)棋盘距离小于或等于2的像素形成了一个以逡逑为中心的方形如下图所示:逡逑2邋2邋2邋2邋2逡逑2邋1112逡逑2邋10邋12逡逑2邋1112逡逑2邋2邋2邋2邋2逡逑图2-3邋8邻域示意图逡逑Fig.2-3邋Diagram邋of邋8-connected邋boundary逡逑具有Z)8=l的像素是像素的8邻域。假设像素点p和g的坐标分别为逡逑(X,>0和(5^),从到^的通路是一组特定的像素序列,通路的坐标序列为:逡逑(2-8)逡逑—12邋—逡逑
逡逑两连通域之间主要有图2-5所示的几种关系,包括相离、包含、交叉,其逡逑中相离关系又可以根据连通域位置关系的不同分为多种情况,比如上下相离,逡逑左右相离等,可根据文字连通域之间的关系对其进行切分。逡逑□逦邋逦邋逦邋逦邋逦逡逑□逡逑□邋□J逦□逡逑逦邋逦□邋□邋逦逡逑□邋□逡逑图2-5连通域关系图逡逑Fig.2-5邋Relation邋diagram邋of邋connected邋boundary逡逑2.2.4投影切分方法逡逑在文字图像中经常使用投影法对文字进行行切分,如果文字竖向书写,逡逑可使用水平投影切分法,如果文字横向书写,可使用垂直投影切分法[67】。垂逡逑直投影就是将图像的中每一个像素按每列求和。垂直投影后,存在文字的部逡逑分投影值大,文字之间的间隔在理想情况下是没有像素的,因此投影值为0。逡逑将投影值为0的点作为切分点对图像进行切分即能完成文字的列切分。但一逡逑般文字之间由于受到噪声影响,会存在一定像素,因此投影值不为0,所以投逡逑影法需要一定的改进才能更好地完成文字列切分工作。常用的改进方法为使逡逑用阈值的投影法。假设将一幅长为width宽为height的文字图像(白底黑字)进逡逑行二值化
【参考文献】
相关期刊论文 前10条
1 童莉;周林;平西建;徐森;;基于高斯衍生滤波器组的文种识别算法[J];数据采集与处理;2014年05期
2 张娜;陈露军;王绪本;;基于水平垂直投影的考古文字修复识别方法[J];科技通报;2014年06期
3 孙阳光;蔡志华;;一种基于局部自适应的女书字符图像分割算法[J];微电子学与计算机;2014年03期
4 金t熻
本文编号:2770411
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2770411.html