手写体新蒙文字符识别算法研究
发布时间:2021-01-17 12:51
在当今各国合作共建的时代背景下,中蒙两国作为睦邻友好的邻国,将新蒙文做一个有效的电脑录入以及字符识别,能有利于两国之间和地区之间的经济、社会、文化发展,也能促进两国和地区人民之间更好的交流沟通。为了满足基本的应用需求,本文从识别率及识别速度的角度出发,结合新蒙文的字符与语言特点,设计了手写体新蒙文字符识别系统。论文主要完成了以下内容。1、完成了手写体新蒙文字符库与语料库的建立。通过编写字符录入窗口,邀请15位同学进行样本录入,完成了手写体新蒙文字符样本集的制作。并通过转录新蒙文文章的形式构建了新蒙文的语料库。2、对于已录入的样本集,结合新蒙文的字符特征以及语言特点进行分析研究,通过手写体新蒙文进行尝试分类实验发掘手写体新蒙文字符识别中存在的问题。对于实验结果进行分析,针对发现的问题,提出了手写体新蒙文字符识别系统的设计方案。3、采用深层卷积神经网络作为主分类器,通过多组实验测试比对,确定神经网络框架,并经过微调确定了最适合手写体新蒙文字符识别的深层卷积神经网络模型。基于识别结果提出了进一步提高识别率的可能。4、辅助分类器的设计与分类器整合。结合手写体新蒙文字的语言特性,利用长短期记忆神...
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
新蒙文的键盘式输入法
内蒙古大学硕士学位论文6第二章字符样本的录入与数据集的制作由于在制作分类器时并没有一个完备的手写体新蒙文字符样本库与语料库,受限于设计算法的需求,设计初期首先要做的就是构建一个适合于网络训练需求的样本集。2.1字符的录入字符录入部分的工作是通过MATLAB编程完成,除此之外浅层神经网络的设计部分也在MATLAB环境下完成。字符录入部分的设计思路是通过生成坐标系,对鼠标左键按下时的位置收录作为点集,通过点集确定绘制区域,并将其与坐标系结合生成图像。为防止在鼠标滑动较快时导致点不够密集,由此引发生成的图像存在断线的情况,需要在每次捕获位置时对于移动的距离上限进行设定,当鼠标的移动距离超过设定的阈值时,对这一段空白的间距进行直线拟合。并且在拟合时,需要对于直线斜率不存时的情况单独处理。为使后续训练过程中更易于处理,对于录入的图像进行二值化处理并取反为黑底白字,同时重新调整图片的大小为35*35*3(长*宽*通道数,为避免与通道数放在第一位的表述方式混淆,如无特殊说明本文保持这种图片尺寸的表述方式)。程序框图如图2.1所示:图2.1字符录入部分的程序框图Fig.2.1Programblockdiagramofcharacterenteringpart
内蒙古大学硕士学位论文7制作完成的简单录入窗口如图2.2所示。图2.2手写体新蒙文的录入窗口Fig.2.2InputwindowofhandwritingMongolianCyrillicCharacter为保证数据集有较好的广泛性,在字符录入时,寻找了15位同学进行协助,每人为68个字符(大写字符33个以及小写字符35个,其中有两个字符无大小写形式区分)每个字符提供10个样本,构成了共计4950个数据的大写字符样本集和共计5250个数据的小写字符样本集。其中С字符的样本集如图2.3所示,图示样本集为经过抽取测试集样本后的训练集样本,因此总计不足150个。从图2.3中可以看出,采集的样本不仅在笔迹粗细,大小上存在区别,在字符的大小与位置上也存在不同,为识别工作增加了难度。图2.3部分手写体字符样本Fig.2.3Somehandwritingcharactersamples新蒙文字符部分字符在大小写的字体写法上具有高度的相似性,如图2.4所示。图2.4(a)字符Ж的手写体图2.4(b)字符Й的手写体Fig.2.4(a)HandwritingcharacterЖFig.2.4(b)HandwritingcharacterЖ
【参考文献】:
期刊论文
[1]基于改进Inception卷积神经网络的手写体数字识别[J]. 余圣新,夏成蹊,唐泽恬,丁召,杨晨. 计算机应用与软件. 2019(12)
[2]深度卷积记忆网络时空数据模型[J]. 秦超,高晓光,万开方. 自动化学报. 2020(03)
[3]基于改进inception的脱机手写汉字识别[J]. 陈站,邱卫根,张立臣. 计算机应用研究. 2020(04)
[4]一种HOG特征模板匹配算法[J]. 崔伟清,党长春,张旺,王洪洲,罗勇牙. 机械管理开发. 2018(11)
[5]人工智能在手写字符识别领域的应用[J]. 谭仁杰. 中国新通信. 2018(20)
[6]基于神经网络对手写字符的研究[J]. 王泽天. 科技经济导刊. 2018(29)
[7]计算机技术在手写体汉字识别方面的应用及发展趋势[J]. 陈擎国. 科技传播. 2018(19)
[8]Gabor滤波器参数设置[J]. 孔锐,张冰. 控制与决策. 2012(08)
[9]改进的HOG和Gabor,LBP性能比较[J]. 向征,谭恒良,马争鸣. 计算机辅助设计与图形学学报. 2012(06)
[10]一种采用Gabor小波的纹理特征提取方法[J]. 张刚,马宗民. 中国图象图形学报. 2010(02)
博士论文
[1]基于图像分析和深度学习的船名标识字符检测与识别研究[D]. 刘宝龙.浙江大学 2018
[2]西里尔蒙古文—汉文机器翻译系统的实现[D]. 乌日力嘎.内蒙古大学 2015
硕士论文
[1]基于深度学习的中文OCR算法与系统实现[D]. 冯海.中国科学院大学(中国科学院深圳先进技术研究院) 2019
[2]弹丸运动参数激光阴影照相测试技术研究[D]. 张文博.西安工业大学 2019
[3]基于深度学习的手写汉字识别的研究[D]. 苏日娅.内蒙古大学 2019
[4]基于LSTM模型的数学公式手写体识别技术的研究与实现[D]. 王奕松.电子科技大学 2018
[5]藏文音节字手写识别[D]. 袁道昱.西安电子科技大学 2017
[6]图像中的文本检测与识别研究[D]. 杨彬.东南大学 2017
[7]基于双向长短时记忆递归神经网络的联机手写数字公式字符识别[D]. 商俊蓓.华南理工大学 2015
[8]多字体印刷蒙文字识别技术的研究[D]. 李伟.内蒙古大学 2004
本文编号:2982919
【文章来源】:内蒙古大学内蒙古自治区 211工程院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
新蒙文的键盘式输入法
内蒙古大学硕士学位论文6第二章字符样本的录入与数据集的制作由于在制作分类器时并没有一个完备的手写体新蒙文字符样本库与语料库,受限于设计算法的需求,设计初期首先要做的就是构建一个适合于网络训练需求的样本集。2.1字符的录入字符录入部分的工作是通过MATLAB编程完成,除此之外浅层神经网络的设计部分也在MATLAB环境下完成。字符录入部分的设计思路是通过生成坐标系,对鼠标左键按下时的位置收录作为点集,通过点集确定绘制区域,并将其与坐标系结合生成图像。为防止在鼠标滑动较快时导致点不够密集,由此引发生成的图像存在断线的情况,需要在每次捕获位置时对于移动的距离上限进行设定,当鼠标的移动距离超过设定的阈值时,对这一段空白的间距进行直线拟合。并且在拟合时,需要对于直线斜率不存时的情况单独处理。为使后续训练过程中更易于处理,对于录入的图像进行二值化处理并取反为黑底白字,同时重新调整图片的大小为35*35*3(长*宽*通道数,为避免与通道数放在第一位的表述方式混淆,如无特殊说明本文保持这种图片尺寸的表述方式)。程序框图如图2.1所示:图2.1字符录入部分的程序框图Fig.2.1Programblockdiagramofcharacterenteringpart
内蒙古大学硕士学位论文7制作完成的简单录入窗口如图2.2所示。图2.2手写体新蒙文的录入窗口Fig.2.2InputwindowofhandwritingMongolianCyrillicCharacter为保证数据集有较好的广泛性,在字符录入时,寻找了15位同学进行协助,每人为68个字符(大写字符33个以及小写字符35个,其中有两个字符无大小写形式区分)每个字符提供10个样本,构成了共计4950个数据的大写字符样本集和共计5250个数据的小写字符样本集。其中С字符的样本集如图2.3所示,图示样本集为经过抽取测试集样本后的训练集样本,因此总计不足150个。从图2.3中可以看出,采集的样本不仅在笔迹粗细,大小上存在区别,在字符的大小与位置上也存在不同,为识别工作增加了难度。图2.3部分手写体字符样本Fig.2.3Somehandwritingcharactersamples新蒙文字符部分字符在大小写的字体写法上具有高度的相似性,如图2.4所示。图2.4(a)字符Ж的手写体图2.4(b)字符Й的手写体Fig.2.4(a)HandwritingcharacterЖFig.2.4(b)HandwritingcharacterЖ
【参考文献】:
期刊论文
[1]基于改进Inception卷积神经网络的手写体数字识别[J]. 余圣新,夏成蹊,唐泽恬,丁召,杨晨. 计算机应用与软件. 2019(12)
[2]深度卷积记忆网络时空数据模型[J]. 秦超,高晓光,万开方. 自动化学报. 2020(03)
[3]基于改进inception的脱机手写汉字识别[J]. 陈站,邱卫根,张立臣. 计算机应用研究. 2020(04)
[4]一种HOG特征模板匹配算法[J]. 崔伟清,党长春,张旺,王洪洲,罗勇牙. 机械管理开发. 2018(11)
[5]人工智能在手写字符识别领域的应用[J]. 谭仁杰. 中国新通信. 2018(20)
[6]基于神经网络对手写字符的研究[J]. 王泽天. 科技经济导刊. 2018(29)
[7]计算机技术在手写体汉字识别方面的应用及发展趋势[J]. 陈擎国. 科技传播. 2018(19)
[8]Gabor滤波器参数设置[J]. 孔锐,张冰. 控制与决策. 2012(08)
[9]改进的HOG和Gabor,LBP性能比较[J]. 向征,谭恒良,马争鸣. 计算机辅助设计与图形学学报. 2012(06)
[10]一种采用Gabor小波的纹理特征提取方法[J]. 张刚,马宗民. 中国图象图形学报. 2010(02)
博士论文
[1]基于图像分析和深度学习的船名标识字符检测与识别研究[D]. 刘宝龙.浙江大学 2018
[2]西里尔蒙古文—汉文机器翻译系统的实现[D]. 乌日力嘎.内蒙古大学 2015
硕士论文
[1]基于深度学习的中文OCR算法与系统实现[D]. 冯海.中国科学院大学(中国科学院深圳先进技术研究院) 2019
[2]弹丸运动参数激光阴影照相测试技术研究[D]. 张文博.西安工业大学 2019
[3]基于深度学习的手写汉字识别的研究[D]. 苏日娅.内蒙古大学 2019
[4]基于LSTM模型的数学公式手写体识别技术的研究与实现[D]. 王奕松.电子科技大学 2018
[5]藏文音节字手写识别[D]. 袁道昱.西安电子科技大学 2017
[6]图像中的文本检测与识别研究[D]. 杨彬.东南大学 2017
[7]基于双向长短时记忆递归神经网络的联机手写数字公式字符识别[D]. 商俊蓓.华南理工大学 2015
[8]多字体印刷蒙文字识别技术的研究[D]. 李伟.内蒙古大学 2004
本文编号:2982919
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2982919.html
最近更新
教材专著