藏文古籍识别系统的设计与实现
发布时间:2024-05-11 23:24
藏文古籍是世界文化宝库中的历史瑰宝,内容涉及宗教、文化、政治、经济等等,不仅是研究藏族历史和文化变迁不可多得的珍贵史料,更是中华民族这个大家庭繁荣昌盛的历史见证。岁月侵蚀加之保存不当使得藏文古籍遭受了不可逆转的损坏、退化,因此基于藏文古籍图像无法再次编辑、检索效率低以及分析挖掘难度较大等现状,亟需开发一款藏文古籍识别软件系统,利用文字识别技术将藏文古籍文档图像转换为可编辑的文本文档,不仅有助于加快藏文古籍文档数字化保护进程、为相关藏学研究者提供便利,而且对加快文化的交流和融合有着一定的促进作用。本文以木刻板乌金体藏文古籍《甘珠尔》为研究对象,在藏文古籍文档识别方面开展了一系列研究,并针对藏文古籍文档图像的特点提出了以下算法:(1)基于Lab颜色空间污渍去除的二值化算法,该算法能够消除污渍等不利因素的影响,对低质图像有较好的处理效果;(2)基于连通域形状判断的去边框算法,克服了基于连通域面积容易误判的缺点,能够更加准确的判断并去除图像中的边框区域;(3)基于基线分割的字切分算法,解决了上元音过长产生的粘连问题,进一步提高了字切分的准确性;(4)基于CNN的字丁识别算法,利用深度学习解决了...
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
本文编号:3970519
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
图1.1藏文音节的构成
化是中华文化大熔炉中的重要部分,是国王松赞干布派出使者吞弥·桑布扎到印自己的文字。藏文是一种具有特殊构成4个元音字母以前后横向拼写、纵向叠音节,并以音节点进行区分,音节具有图1.1所示为藏文音节构成示意图,音节4个字丁,现代藏文一个字丁由1至4节的基本单位,音....
图1.2藏文古籍示例(002-384)
藏文古籍大多以木刻雕版印刷而成,与一般书籍成册装订的形式不同,藏文古籍是长条活页的形式,且文字四周常常添加边框线、书页两边添加页码及书名简称以避免页面混淆,如图1.2所示为藏文古籍文档图像示例,002-384表示第二卷第384页(以下表示意思相同不在赘述)。
图2.1普通用户用例图
第2章藏文古籍识别系统需求分析分析的任务是分析系统的数据要求、导出系统的逻辑模型、修、确定系统的综合要求,是系统设计与实现的基础。藏文古籍需要为用户提供图像二值化、去边框、行切分、字切分、分类本标记等功能模块及各模块对应的校对功能,且针对不同的用择的实现模式。本章节主要从图....
图2.2专业用户用例图
8图2.2专业用户用例图藏文古籍识别系统的功能需求有如下几个方面。(1)识别系统与用户的基本交互功能。该功能是识别系统最基本的功能是识别系统能否正常运行的关键。输入系统与用户的交互功能是指用户点击相功能模块并发起启动命令,系统能根据用户发起的命令执行相关的操作。(2)图像获取....
本文编号:3970519
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3970519.html
最近更新
教材专著