当前位置:主页 > 文艺论文 > 语言艺术论文 >

藏文历史文献中粘连字丁串的切分与识别

发布时间:2020-03-25 20:51
【摘要】:在人类发展的岁月长河里,各族人民留下了弥足珍贵的历史足迹。历史文献作为重要的信息载体,对研究人们早期的生产、生活方式具有极其重要的价值和深远意义。藏族是我国拥有悠久历史文化,并且拥有本民族语言和文字的少数民族之一。藏族人民创造了极具特色的高原文化,在多个领域留下了丰富的文化遗产。藏文历史文献是研究藏族历史文化和藏传佛教的重要途径,近年来受到了众多学者的广泛关注。但由于藏文历史文献历史悠久,每一次的查阅都可能会对文献造成毁灭性的破坏。对藏文历史文献进行数字化保护,不仅能够保护纸质脆弱的历史文献,也能够提高文献的利用率。早期的藏文历史文献多采用木刻板印刷,随着墨迹扩散、潮湿等因素的影响,文献中产生了大量的粘连字丁串。针对英语、汉语、日语和阿拉伯数字等粘连字丁串的研究已经卓有成效,但尚未有针对藏文历史文献粘连字丁串的相关研究。为了探索藏文历史文献中粘连字丁串的切分和识别任务,本文作了如下研究工作:首先,本文介绍了国内外对于其他语言的粘连字丁串切分与识别以及藏文历史文献的研究现状和前沿动态,分析了学者对该课题的研究工作,总结了在处理该问题时常用方法和技巧,对本文关于藏文历史文献中粘连字丁串的切分与识别研究工作提供了很好的借鉴和帮助。其次,由于对藏文历史文献粘连字丁串的研究非常匮乏,该领域并没有任何公开发表的数据库。本文在藏文历史文献图像中利用连通区域分析的方式筛选了7,500张粘连字丁串,并使用XML文件对粘连字丁串的粘连点坐标、粘连字丁类别等进行了标注,构建了第一个藏文历史文献粘连字丁串数据库。本文通过对经典的滴水算法利用最短路径进行了改进,使算法对藏文粘连字丁串形成的切分路径更加合理。经过试验分析,本文发现改进后的滴水算法在粘连模式简单的藏文粘连字丁串中召回率达到73.02%。再次,经过对藏文文字结构的分析,本文提出了一种基于轮廓特征点检测的过切分算法。该算法首先通过藏文基线将藏文字丁分成上元音区域和辅音字母区域两部分;然后对于上元音区域,利用SVM-上元音分类器对上元音区域的特征点进行筛选,对于辅音字母区域,利用规则进行特征点筛选;最后利用特征点构建切分路径。本方法在粘连模式复杂的藏文粘连字丁串中召回率达到了81.42%。最后,本文利用深度学习框架,分别开发了复杂藏文历史文献文本和藏文拉丁转写文本的识别系统,实现了图像文本识别功能。
【图文】:

辅音字母,元音字母


北京工业大学工程硕士专业学位论文上进行了初步的实验;在 3.5 节,对本章进行了总结。3.2 数据集的收集藏文文字是一种拼写型文字,包含 30 个辅音字母和 4 个元音,如图 3-1(a)和(b)所示。从字形上来说,存在很大的相似性,再加上时间因素造成的字丁粘连,对藏文历史文献进行数字化任务有很大困难。

藏文,历史文献,版面分析


- 13 -图 3-3 藏文历史文献中的一页Figure 3-3 A page in the Tibetan historical document藏文粘连字丁串的收集工作包括预处理、版面分析、行切分、连通区域分析、后处理等步骤。在预处理阶段,本文主要针对粘连字丁串进行了二值化和降噪操作,目的是为了使原始数据尽可能的不失真。在进行版面分析时,本文使用了张西群[47]等人的方法对扫描的图像进行了版面分析,该方法是通过连通区域分析和角点检测而进行的。首先对扫面后图像进行角点检测,文中利用伽马变换对图像进行了图像增强,,接着使用大津算法对图像进行二值化处理,最后使用 Harris检点检测算法检测角点;然后使用设定阈值初步得到文本区域;最后对图像进行后处理,对文本区域的边缘进行提取和矫正,我们使用红色线条对文本区域进行了标记,如图 3-4(a)所示。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H214;TP391.41

【相似文献】

相关期刊论文 前10条

1 陈晰;;近代初期台湾史学界的重要工具书——《早期台湾历史文献研究书目》[J];中国索引;2011年01期

2 陈庆英;杨洁;;评《清代藏学历史文献研究》[J];西藏研究;2018年01期

3 赵凤华;;浅析历史文献在历史教学中的作用[J];中华少年;2017年19期

4 张子刚;;碑刻:研究地方社会发展不可或缺的历史文献[J];人口·社会·法制研究;2016年Z2期

5 刘敬林;《英藏敦煌社会历史文献释录》(第一卷)补校[J];敦煌研究;2004年02期

6 叶贵良;《英藏敦煌社会历史文献释录·斯63号〈太上洞玄灵宝无量度人上品妙经〉》校正[J];敦煌学辑刊;2002年02期

7 ;上图新馆将举办 “历史文献的开发与利用”学术研讨会[J];图书馆杂志;1997年03期

8 王继光;;蒙、藏、维吾尔族历史文献举要[J];史学史研究;1987年02期

9 ;历史文献[J];党史纵横;1988年07期

10 顾志华;;祁承r在历史文献整理工作中的贡献[J];华中师范大学学报(哲学社会科学版);1988年04期

相关会议论文 前10条

1 向燕南;;古城的保护与其可持续发展不应忽视历史文献的研究[A];《中国长城博物馆》2012年第3期[C];2012年

2 赵娅丽;范胜丽;;现代思维科学与东北地方历史文献研究[A];耕耘录:吉林省博物院学术文集(2003-2010)[C];2010年

3 张丕远;葛全胜;郑景云;;从历史文献、档案中提取自然环境信息的研究[A];中国经济史上的天人关系学术讨论会论文集[C];1999年

4 陈志根;;论湘湖历史文献的整理与研究[A];萧山记忆(第四辑)[C];2011年

5 林永祥;;福建省图书馆历史文献信息的收集与利用[A];福建省社会科学信息中心2005年年会论文集[C];2005年

6 周卫荣;;“搉石”考[A];面向21世纪的科技进步与社会经济发展(下册)[C];1999年

7 陈立;;载籍聚珍,含英咀华:南京图书馆历史文献阅读推广之路[A];中国图书馆学会年会论文集(2014年卷)[C];2014年

8 田玉南;;探析烟台地区历史文献开发利用的价值及其举措[A];文化研究论坛[C];2011年

9 张立宪;;溥仪珍宝迷踪[A];溥仪研究 创刊号[C];2011年

10 舒大刚;;汉代儒学文献的发展与演变[A];历史文献研究(总第31辑)[C];2012年

相关重要报纸文章 前10条

1 杭州师范大学马克思主义学院 方勇骏;加强民间历史文献研究[N];中国社会科学报;2019年

2 孙昌武;一部历史文献拾遗补缺之作[N];中华读书报;2018年

3 新乡市图书馆 吴敏卿;河南历史文献的整理与开发利用[N];新乡日报;2009年

4 记者葛锐;历史文献画册《中国卫生防疫50年》正式出版[N];中国中医药报;2002年

5 记者 章红雨;国图社40年披露5万余种珍稀历史文献[N];中国新闻出版广电报;2019年

6 厦门大学历史系 张侃;田野工作、历史文献与史学研究[N];光明日报;2007年

7 高放;珍贵革命历史文献的生动展现[N];人民日报;2007年

8 国家社科基金重大项目“英藏敦煌社会历史文献整理与研究”首席专家 首都师范大学教授 郝春文;《英藏敦煌社会历史文献释录》(1—11卷)出版[N];光明日报;2015年

9 记者 姜小玲;6700余种15000余册革命历史文献整理完成[N];解放日报;2011年

10 记者 庄建;新疆历史文献现“真身”[N];光明日报;2010年

相关博士学位论文 前1条

1 冯法强;近代江淮官话语音演变研究[D];南开大学;2014年

相关硕士学位论文 前10条

1 赵全超;藏文历史文献中粘连字丁串的切分与识别[D];北京工业大学;2019年

2 张西群;面向藏文历史文献的版面分割方法研究[D];北京工业大学;2018年

3 肖s

本文编号:2600429


资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2600429.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f4e10***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com