西夏古籍文字样本数据库的创建及应用技术研究
发布时间:2021-09-08 07:08
古籍文献的数字信息化,有利于古籍文献的保护整理与研究交流,是现代社会研究古籍文献的主要渠道。西夏文是记录西夏党项族的一种古文字,通过古籍文献中的西夏文字我们能够充分了解当时西夏的社会历史形态和民族文化,因此当前发掘并保存的西夏古籍文献是我们研究西夏文的重要窗口。但由于年代久远,能存留至今的西夏古籍文献少之又少,并且存在纸张毁坏,文字不清等问题,严重阻碍了西夏文的数字化发展。如今光学字符识别、机器学习等技术将极大地帮助人们对古籍文字的解读,但这些技术都是基于文字数据库的,文字数据库为文字识别提供了训练样本和评价标准。因此建立标准、公开、通用的西夏文字样本数据库是开展西夏文识别研究的前提和基础。西夏文样本数据库不仅为西夏文智能识别算法提供测试样本和评价标准,同时能够弥补熟练掌握西夏文语言专家的稀缺性,为西夏学研究者提供更加便利的科研工具和高效的科研方法,也为古籍数字化文献信息检索在方式和内容提供有力支持。目前针对西夏文识别的样本数据库的建立尚处于空白阶段,本文重点探讨西夏文样本库的建立及应用技术研究。首先选择西夏文佛经文献作为数据源,然后对扫描后的古籍图像进行预处理和文字提取,将标注提取到...
【文章来源】:宁夏大学宁夏回族自治区 211工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
西夏文稗本数据库组织流程
十华严”中的第40?—43卷进行了详细校注。??《金刚经》:作为最重要的佛教经文,在西夏统治时期广泛流传。西夏文版本的这些佛经的主??要集中在俄罗斯的遗址中126U三大佛经展示如图3。??||||!象??ill??大般若波罗蜜经?华严经?金刚经??图3.三大西夏文佛经部分展示??2.3图像扫描??在我的课题研宄中,首先选取了《华严经》作为数据源,这些经文卷页首先经过扫描生成电??子版的图像文件。扫描是将纸质版古籍文献转换成电子版的最基本方式之一,通过对古佛经卷页??的扫描,不仅可以提供给我们最直接的原始材料,同时又能保证文件矢量化的准确性。在扫描卷??页过程中,要注意两点:首先,由于扫面的佛经页面很多,必须保证对每一页都是高像素、等比??例的扫描,才便于后续的图像处理工作;其次,扫描范围要全面,要将《华严经》的每一版本的??-10-??
例如《华严经》卷40的扫描图像存储于以Huayan_40/image命名的文件夹中,如图4所示。????>?Huayan_40?>?image?v?〇?度索’irrnge*?P??_______??04.jpg?05.jpg?06.jpg?07.jpg?08?jpg?09.jpg?10?jpg??■?H?H画國圓圖??11?jpg?12.川。?H?判?M.ipg?bjpg?16.川(1?17.jpg??_圖_?_隨麵圍??18.jpg?19.jpg?20.jpg?21.jpg?22.jpg?23.jpg?24.jpg??HI?■!?__?ni?MM??HB?IB?HH?HH??25.jpg?26.jpg?27.jpg?28.jpg?29.jpg?30.jpg?31?jpg??图4.扫描的西夏文图像文件??2.4西夏古籍图像预处理??由于古籍图像的版面质量会因一些干扰信息而产生一定的噪声,比如手写体丙夏文字由于书??写习惯,造成笔画不均匀、字体倾斜以及版面污渍等;以及在图像扫描过程屮由于机器分辨率的??原因造成图像颜色失真或者清晰度不高等现象,会对接下来的检测分割工作造成影响。预处理的??目的是对古籍图像版面中存在的噪声等干扰信息进行减弱或消除,增强文字的清晰度,改善图像??的质量,以便快速提取和识别出古籍中的文字。因此图像预处理是进行文字提取和识别的前提条??件。西夏文预处理主要包括灰度化、滤波去噪、二值化、形态学运算等操作。??2.4.1图像灰度化??将彩色的古籍图像转换为灰度图像的过程为图像的灰度化处理M,也就是对图像进行降维处??理
本文编号:3390357
【文章来源】:宁夏大学宁夏回族自治区 211工程院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
西夏文稗本数据库组织流程
十华严”中的第40?—43卷进行了详细校注。??《金刚经》:作为最重要的佛教经文,在西夏统治时期广泛流传。西夏文版本的这些佛经的主??要集中在俄罗斯的遗址中126U三大佛经展示如图3。??||||!象??ill??大般若波罗蜜经?华严经?金刚经??图3.三大西夏文佛经部分展示??2.3图像扫描??在我的课题研宄中,首先选取了《华严经》作为数据源,这些经文卷页首先经过扫描生成电??子版的图像文件。扫描是将纸质版古籍文献转换成电子版的最基本方式之一,通过对古佛经卷页??的扫描,不仅可以提供给我们最直接的原始材料,同时又能保证文件矢量化的准确性。在扫描卷??页过程中,要注意两点:首先,由于扫面的佛经页面很多,必须保证对每一页都是高像素、等比??例的扫描,才便于后续的图像处理工作;其次,扫描范围要全面,要将《华严经》的每一版本的??-10-??
例如《华严经》卷40的扫描图像存储于以Huayan_40/image命名的文件夹中,如图4所示。????>?Huayan_40?>?image?v?〇?度索’irrnge*?P??_______??04.jpg?05.jpg?06.jpg?07.jpg?08?jpg?09.jpg?10?jpg??■?H?H画國圓圖??11?jpg?12.川。?H?判?M.ipg?bjpg?16.川(1?17.jpg??_圖_?_隨麵圍??18.jpg?19.jpg?20.jpg?21.jpg?22.jpg?23.jpg?24.jpg??HI?■!?__?ni?MM??HB?IB?HH?HH??25.jpg?26.jpg?27.jpg?28.jpg?29.jpg?30.jpg?31?jpg??图4.扫描的西夏文图像文件??2.4西夏古籍图像预处理??由于古籍图像的版面质量会因一些干扰信息而产生一定的噪声,比如手写体丙夏文字由于书??写习惯,造成笔画不均匀、字体倾斜以及版面污渍等;以及在图像扫描过程屮由于机器分辨率的??原因造成图像颜色失真或者清晰度不高等现象,会对接下来的检测分割工作造成影响。预处理的??目的是对古籍图像版面中存在的噪声等干扰信息进行减弱或消除,增强文字的清晰度,改善图像??的质量,以便快速提取和识别出古籍中的文字。因此图像预处理是进行文字提取和识别的前提条??件。西夏文预处理主要包括灰度化、滤波去噪、二值化、形态学运算等操作。??2.4.1图像灰度化??将彩色的古籍图像转换为灰度图像的过程为图像的灰度化处理M,也就是对图像进行降维处??理
本文编号:3390357
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3390357.html