当前位置:主页 > 科技论文 > 自动化论文 >

西夏文字数字信息化若干问题研究

发布时间:2020-10-17 23:38
   西夏(公元1038-1227年)是以我国古代党项族为主体建立的封建王朝,国号大夏。地域包括今宁夏、甘肃大部,陕西北部、内蒙古西部和青海东北部。首府兴庆(今宁夏银川市)。西夏文是记录西夏党项族语言的文字,曾在西夏王朝统治的地域被广泛使用。西夏王朝亡于蒙古后,党项民族融合于其他民族之中,西夏文字随之逐渐消亡,文献典籍渐被湮没,在近千年的时间里被人遗忘。直到20世纪初在内蒙古自治区额济纳旗黑水城遗址,大量西夏文物和古籍文献被发现,西夏学研究开始兴起。针对被遗忘近千年的西夏文字的研究是西夏历史文化研究的重要组成部分。将现代计算机信息技术应用于西夏文字的处理以及西夏文古籍文献的研究、整理和保存,在当前数字化的时代势在必行,将大幅度提高西夏学的研究效率,有力推动西夏学学术研究的发展。具有重要的研究价值和十分广阔的应用前景。本文围绕图像处理、模式识别、深度学习等人工智能技术手段,针对西夏文字数字信息化的若干关键问题进行研究,主要内容包括:1)改进的霍夫变换在文字笔划检测识别中的应用研究。基于霍夫变换基础几何图形检测的功能,本文提出端点引导的霍夫变换方法,利用线段端点信息在霍夫变换检测直线过程中降低运算负荷,提高容错率,并通过引入假设线段长度因子有效改善传统霍夫变换对短直线的检测能力。本文提出的改进的霍夫变换算法可以有效应用于西夏文字笔划的检测。2)西夏文字样本数据集的建立。目前尚未有公开发表的西夏文字样本数据集为西夏文字识别提供训练样本和测试样。西夏文字识别研究缺乏规范的样本数据集和统一的测试标准。针对这一问题,本文研究从西夏文古籍文献中提取字符样本,经过字符图像归一化和文字类别标签标定等一系列工作,初步完成了西夏文字样本单字数据集和文本数据集的建立,并提供了数据集的使用和测试范例。该工作填补当前西夏文字识别研究领域的一项空白。3)西夏文字样本集样本不均衡分布问题分析及样本扩充方法研究。在西夏文字样本数据集的建立过程中,由于受到数据源固有因素的约束,数据集在样本类别间体现出不均衡分布。不均衡数据是指样本训练集中的类别分布存在某一类的样本数量明显少于其他类的比例或数量。样本的不均衡分布导致少数类样本实例的分类准则难以提取,数据的不均衡比例越高,提取少数类样本的特征信息越困难。针对这一问题,本文对采用GAN(Generative Adversarial Network,对抗生成网络)应用于西夏文字样本的生成进行了研究。此外,本文还提出基于MLSD(Moving least squares deformation移动最小变形)的样本合成扩展方法,对样本数量少的类别进行样本扩充。经试验证明,扩充后的均衡分布样本数据集作为训练集,对提高识别率有明显促进作用。4)基于深度学习的西夏文字识别研究。以西夏文字样本数据集作实验对象,本文采用神经网络和深度学习算法对西夏文字识别进行研究,基于不同的深度学习平台进行了识别模型设计、模型训练以及识别测试。在验证各类算法模型的西夏文识别效果的同时,也证明了本文所提出的西夏文字样本集合成扩展在提高识别率方面的有效性。综上所述,本文以西夏文字数字信息化为主要方向,围绕以西夏文字识别为核心的若干问题进行了讨论和研究,在西夏文字样本数据集的建立,不均衡样本扩充,西夏文字识别等方面开展了较为深入的研究工作。
【学位单位】:北京交通大学
【学位级别】:博士
【学位年份】:2019
【中图分类】:H211.7;TP18;TP391.41
【部分图文】:

西夏文字,字符,结构特征,全局特征


角号码编码为2244的字有60个之多。为了克服这一问题,西夏文字四角编码增??加了副码,将文字底边中间的两部分笔画所对应的码号作为副码,使用6位数码??对每一个字符进行编码,有效降低了重码率。副码编码范例如图4所示。图1、??图3、图4中的图例均来自古今文字集成网站[12]。??M?M?i艰??US:??图4副码编码范例[12]??Figure?4?Example?of?sub-coding[l21??2.3基于文字构件的西夏文字四角编码识别方法??四角编码不仅是有效的文字检索方法,同时也为西夏文字识别提供了一个思??路。按照字符图像特征生成的方式可分成:局部特征、全局特征、结构特征。局??部特征指不考虑字符结构信息,而通过局部变换得到的特征;全局特征指不考虑字??符结构信息,而通过全部变换得到的特征;结构特征则指字符笔画结构的特征。针??对西夏文字笔划繁复,识别难度大的问题,如果能够把一个字符的结构特征解析??提取出来,识别出字符四角的部首,笔划或字符构件,根据每个构件所对应的编??码即可得出该字符的四角编码。??这一方案的难点首先在于文字字符的拆解,如何从一个文字图像中分离提取??11??

西夏文字,字符,结构特征,全局特征


将文字底边中间的两部分笔画所对应的码号作为副码,使用6位数码??对每一个字符进行编码,有效降低了重码率。副码编码范例如图4所示。图1、??图3、图4中的图例均来自古今文字集成网站[12]。??M?M?i艰??US:??图4副码编码范例[12]??Figure?4?Example?of?sub-coding[l21??2.3基于文字构件的西夏文字四角编码识别方法??四角编码不仅是有效的文字检索方法,同时也为西夏文字识别提供了一个思??路。按照字符图像特征生成的方式可分成:局部特征、全局特征、结构特征。局??部特征指不考虑字符结构信息,而通过局部变换得到的特征;全局特征指不考虑字??符结构信息,而通过全部变换得到的特征;结构特征则指字符笔画结构的特征。针??对西夏文字笔划繁复,识别难度大的问题,如果能够把一个字符的结构特征解析??提取出来,识别出字符四角的部首,笔划或字符构件,根据每个构件所对应的编??码即可得出该字符的四角编码。??这一方案的难点首先在于文字字符的拆解,如何从一个文字图像中分离提取??11??

曲线,多级分类,西夏文


针对这一问题,可以考虑将对西夏字符构件的识别到四角编码的映射作为初??级分类。在解析出西夏字符的四角编码后,列出所有与该编码对应的同码的字符??集,然后进行二级分类识别,在同码字集中找出识别对象,识别流出如图6所示。??在二级分类阶段,用来比对选择的样本类别数量大幅度降低,可以选用运算量大??而精读较高的算法,同时根据辨识对象的特点,有效降低运算量。??编号为174200??的字符集??初级分类?4?2????二级分类?, ̄^???霖叫在重」;,行??图6西夏文多级分类识别??Figure?6?Multilevel?classification?recognition?of?Tangut?character??2.4?HTGE在西夏文字笔画检测中的应用??针对前文所述的文字结构特征解析环节,本文提出HTGE?(Hough?Transform??with?Guidance?of?Endpoints,端点引导的霍夫变换)算法应用于西夏文字笔划的检??测。HTGE在传统霍夫变换的基础上考虑线段端点信息对线段检测有效引导,这一??改进可以有效提高对近似直线的曲线容错能力
【相似文献】

相关期刊论文 前10条

1 梁松涛;;四十年来西夏文学研究的回顾与展望[J];西夏研究;2018年04期

2 史金波;;西夏文明在中国文明史上的地位[J];文史知识;2017年03期

3 馬振穎;;2015年西夏學研究論著目録[J];敦煌学国际联络委员会通讯;2016年00期

4 彭程;;宁夏主题酒店的发展前景——以西夏文化为例[J];才智;2013年09期

5 温晋林;西夏文化专题旅游开发[J];宁夏大学学报(自然科学版);1999年02期

6 牛达生 ,刘天明;见解独具、内容翔实的西夏学专著——《西夏文化》[J];民族研究;1988年06期

7 陈炳应;《西夏文化》评介[J];中央民族学院学报;1988年04期

8 张云;;论吐蕃文化对西夏的影响[J];中国藏学;1989年02期

9 李晓春;;西夏文书籍装帧艺术特点初探[J];创意与设计;2017年06期

10 陈思博;;宁夏的西夏文化遗产与旅游产业[J];艺术品鉴;2018年17期


相关博士学位论文 前1条

1 孟一飞;西夏文字数字信息化若干问题研究[D];北京交通大学;2019年


相关硕士学位论文 前9条

1 贾搏;西夏文《现在贤劫千佛名经》(上卷)考释[D];陕西师范大学;2018年

2 杨文慧;西夏古籍文字样本数据库的创建及应用技术研究[D];宁夏大学;2018年

3 白乖乖;西夏与周边民族的佛教关系[D];北方民族大学;2018年

4 余惠娟;西夏文契约的担保与汉文契约担保的比较研究[D];武汉大学;2018年

5 曾金雪;西夏文《大般涅槃经》卷二十二译释研究[D];陕西师范大学;2018年

6 周媛;宁夏的西夏文化遗产与旅游产业[D];华中师范大学;2011年

7 米晨榕;西夏教育刍议[D];陕西师范大学;2015年

8 郭迎春;论宁夏平原在西原历史上的地位[D];河北大学;2007年

9 李晓玲;帝王陵墓类旅游产品开发研究[D];西安建筑科技大学;2007年



本文编号:2845460

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2845460.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户57796***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com