当前位置:主页 > 科技论文 > 自动化论文 >

基于改进模糊支持向量机的西夏文字识别研究

发布时间:2020-10-25 22:32
   在日常生活中经常会遇到需要将纸质上的文字转换为可以被电子设备存储的数字信息的情况。基于这一需求诞生了文字识别技术。文字识别隶属于模式识别学科,是在OCR(光学字符识别)的基础上,对获取图片进行预处理,特征提取,然后选择合适的分类器识别不同文字的技术。显然,文字识别拥有非常广泛的应用领域,特别是在邮政,考试,票据等很多需要识别复杂手写体,且对精度需求极高的场合。本文所研究的西夏文字识别技术是近年来文字识别技术中待发展的全新领域。西夏文明作为中华文明中不可或缺的一部分,一直有待人们挖掘探索。作为西夏文明的载体,古西夏文字的识别工作显得格外重要。不同于现代汉字,古西夏文字结构复杂,组成字符的各部分偏旁极其相似,且平均笔画高达25画,难以数字化。此外,目前出土的西夏文载体主要以手抄本和活字刻版字为主,同一个字在不同文献上的位置和布局均不相同,这都给文字识别工作带来了很大困难。为解决这一难题,针对传统的文字识别技术中存在的预处理数据冗余,特征复杂,泛化能力不足等问题,本文在采用HOG特征提取的基础上,提出了基于改进模糊支持向量机的西夏文字识别技术。模糊支持向量机是Lin Chun-fu等人为了解决支持向量机推广到多分类时存在的混分和漏分问题而提出的新分类器。本文提出的基于多超平面距离度量的隶属度函数对模糊支持向量机进行了改进,通过用过正负类中心的超平面代替类中心的作用,用样本点到各类中心平面及类中心的距离做比较来设计新的函数。根据样本分布,赋予不同样本点不同的权重,从而优化了分类器。针对非平衡数据分类,在支持向量机的数学模型中引入了新的约束公式,减小了隶属度函数赋值误差,增强了新算法的泛化能力,进一步优化了分类器。本文将改进后的模糊支持向量机应用于西夏文字识别并进行实验,然后与已有的几种常见算法进行对比实验,分析了各个算法的优劣性。实验结果表明新方法具有收敛速度快,识别率高的优点,具有一定的应用价值。本文的研究意义主要有四点:首先,有利于西夏文字的再生保护。本文提出的技术实现了西夏文字的数字化,将古籍资料以图像的形式存放在计算机里;其次,提高了文字整理效率。数字化后的图像数据库极大的方便了科研工作者;再次,提供了可借鉴的文字识别模型。同西夏文字情形类似的还有契丹文,女贞文等,本文的文字识别模型可供其他古文字保护工作借鉴;最后,实现了古籍文献的信息化检索。对于如西夏文字这样相似度极高的字符集,建立图像数据库,实现自由检索信息具有重要的意义。
【学位单位】:兰州交通大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:H211.7;TP391.41;TP18
【部分图文】:

西夏文字,示例


- 5 -图 2.1 西夏文字示例分析这 6000 多个字的骨架结构,可以得出如下结论:(1) 大部分字体的笔画都很繁杂,并且平均笔画达到 25 画。计算机识别难以入手。(2) 与汉字相似,都由竖、撇、捺、折、勾等笔画组成,但其中斜笔较多。(3) 西夏文字中存在很多形近字,将文字左右部分互换得到的文字往往是原文字的近义字。关于西夏文字的编码工作,李汉文先生编写的《夏汉字典》是迄今为止第一部系统的,完备的西夏文与汉文对照的字典,其中,李汉文先生提出了四角编码方法将西夏文的笔形划分为九种类型,并分别用数字 1-9 来表示,0 用来表示没有笔形。如图 2.2 是西夏文字的笔形和对应的代码。

西夏文字,重码,附加码


图 2.2 西夏文字笔形表因为西夏文字笔画繁杂,如果只用四角编码就会发生重码的现象即不同文字有的编码。为了解决这个问题,后来又在四位编码后添加了两位附加码。四角码的编序是按照左上、右上、左下和右下的顺序。附加码的编码顺序是按靠近左下角在先近右下角在后。可是即使这样依然无法解决所有文字的重码问题,如图 2.3 中所示个西夏文字的编码都是 101000。图 2.3 四角编码重码文字

重码,文字,西夏文字,附加码


图 2.2 西夏文字笔形表因为西夏文字笔画繁杂,如果只用四角编码就会发生重码的现象即不同文字有码。为了解决这个问题,后来又在四位编码后添加了两位附加码。四角码的编按照左上、右上、左下和右下的顺序。附加码的编码顺序是按靠近左下角在先下角在后。可是即使这样依然无法解决所有文字的重码问题,如图 2.3 中所示夏文字的编码都是 101000。
【相似文献】

相关期刊论文 前10条

1 ;新华智云推出25款媒体机器人,解决媒体人痛点[J];传媒;2019年17期

2 张华萍;黄辰;;文字识别技术研究[J];物联网技术;2018年08期

3 浦世亮;程战战;;基于注意力矫正的自然场景文字识别[J];中国公共安全;2017年09期

4 盛寁;刘伟;;计算机文字识别的发展及应用[J];科技信息;2008年31期

5 Jay;文字识别网上行[J];电脑应用文萃;2005年02期

6 柳玉辉;计算机文字识别的技术探讨与应用前景分析[J];软件工程师;1999年04期

7 郭军,马跃,盛立东,钟义信;发展中的文字识别理论与技术[J];电子学报;1995年10期

8 张开;岑翠;李林献;谢雨非;;基于蚁群算法的文字识别[J];信息与电脑(理论版);2019年22期

9 弓耀辉;;图像文字识别中的预处理技术研究综述[J];信息通信;2017年09期

10 孙承鉴,张大华;手写文字识别技术及其在图书馆的应用[J];现代图书情报技术;1993年01期


相关博士学位论文 前5条

1 姚超;降维算法和手写文字识别中若干问题研究[D];西安电子科技大学;2014年

2 许亚美;手写维吾尔文字识别若干关键技术研究[D];西安电子科技大学;2014年

3 姚聪;自然图像中文字检测与识别研究[D];华中科技大学;2014年

4 程艳芬;离线阿拉伯手写体光学文字识别方法的研究[D];武汉理工大学;2009年

5 玛依热·依布拉音;联机手写维吾尔文字母与单词识别研究[D];武汉大学;2013年


相关硕士学位论文 前10条

1 刘兴长;基于改进模糊支持向量机的西夏文字识别研究[D];兰州交通大学;2019年

2 杨海林;基于深度学习的古籍文字识别和检测[D];华南理工大学;2019年

3 李小璐;基于优化分割与提取的西夏古籍文字识别研究[D];宁夏大学;2019年

4 杨宏志;基于深度学习的自然场景文字识别[D];重庆邮电大学;2019年

5 游京翰;基于深度学习的文字序列识别系统[D];哈尔滨工业大学;2018年

6 高威威;基于深度学习的自然场景文字识别[D];安徽大学;2019年

7 赵星驰;基于深度学习的视频文字检测技术[D];北京邮电大学;2019年

8 张博;基于深度置信网络的图像识别算法研究[D];哈尔滨理工大学;2019年

9 邵文良;基于深度学习的医疗单据图文识别关键技术研究与实现[D];北京邮电大学;2019年

10 邹瑞杰;基于深度学习的自然英文文字识别的研究[D];电子科技大学;2019年



本文编号:2856054

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2856054.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7dcf8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com