基于深度学习和知识策略的蒙古文古籍识别研究
发布时间:2018-01-04 13:16
本文关键词:基于深度学习和知识策略的蒙古文古籍识别研究 出处:《内蒙古大学》2016年博士论文 论文类型:学位论文
更多相关文章: 蒙古文古籍 整词识别 基于切分的单词识别 卷积神经网络 知识策略 错误校正
【摘要】:蒙古文古籍为研究蒙古社会政治和历史文化提供了丰富和可靠的资料。为更好地抢救、整理和利用蒙古文古籍,内蒙古大学图书馆启动了古籍电子化工作,将其扫描转换成图像格式存储,并向读者提供了电子化服务。但是,古籍图像不能再编辑,且检索效率低,分析和挖掘难度大,亟需利用文字识别技术将其转换为文本文档。蒙古文古籍采用木刻雕版工艺印刷,具有排版不够规整、字形差异显著、文字颜料扩散和脱落等特点,给识别工作带来很大挑战。本文以《御制蒙古文甘珠尔经》为研究对象,在蒙古文古籍识别方面开展了一系列研究,主要内容如下:1.本文提出了蒙古文古籍单词的有效识别方法。在分析整词识别和基于切分的单词识别两种方案优缺点的基础上,结合蒙古文古籍单词特点,提出了整词识别和基于切分的单词识别的混合策略,对高度较低且字形基元切分难度大的单词采用整词识别的方法进行识别,对其余单词采用基于字形基元切分的识别方法进行识别,通过实验确定了两种方法的选择依据。2.本文提出了半自动样本选取方法。为达到理想的识别精度,需要大量样本训练识别中使用的卷积神经网络,为克服人工选取样本效率低的缺点,提出了半自动的样本选取方法,首先利用分类器对未分类的全部样本进行粗分类,然后人工去除每类中不正确的样本,最后将每类中剩余样本作为最终训练样本。训练样本选取分类器的过程采用了书写者适应性调整、利用形态学方法生成伪训练样本、多次循环策略。3.本文提出了蒙古文古籍单词的字形基元切分方法。由于蒙古文古籍单词存在严重的形变和字形基元重叠现象,针对机器印刷体蒙古文单词的切分方法难以奏效。分析了蒙古文古籍单词外形特征,提出了基于轮廓分析的字形基元切分方法,首先提取单词轮廓上的关键点,其次利用轮廓关键点定位单词主干线,最后利用轮廓关键点和主干线信息生成分割线。为简化轮廓关键点检测步骤并避免轮廓噪声的影响,利用多边形作为单词外轮廓的近似。4.本文提出了三种基于知识的策略来提升单词识别精度。在基于切分的单词识别方法中,字形基元的识别结果用于生成单词的识别结果,通过分析识别结果,发现导致单词识别错误的原因是字形基元切分不合理和字形基元识别错误。为进一步提升单词识别精度,结合蒙古文的构词知识提出三种策略并应用于字形基元识别环节,分别是整合主干线信息策略、字形基元分组策略,以及识别欠切分和过切分片段策略。5.本文提出了古典蒙古文词典的构建方法和基于字形基元相邻规则的错误检测方法,并评测了基于词典和基于字形基元相邻规则的错误检测方法各自的性能,分别采用加权编辑距离模型和噪声信道模型进行错误校正,根据识别结果和字形知识为这两种模型分配编辑操作的权重,结合识别方法简化噪声信道模型以减少计算量。
[Abstract]:This paper presents an effective identification method for Mongolian ancient books . According to the recognition result and the font knowledge , the weights of the editing operations are assigned to the two models , and the noise channel model is simplified in combination with the identification method to reduce the calculation amount .
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP391.43
【参考文献】
相关期刊论文 前6条
1 魏宏喜;高光来;;基于Word Spotting技术的蒙古文古籍图像检索中的特征选择[J];计算机应用;2011年11期
2 魏宏喜;高光来;;一种基于连通域的蒙古文文档图像版面分析方法[J];内蒙古大学学报(自然科学版);2007年05期
3 魏宏喜;高光来;;蒙文文档图像的倾斜检测方法[J];内蒙古大学学报(自然科学版);2007年04期
4 魏宏喜;高光来;;印刷体蒙古文字识别中蒙古文字特征的选择[J];内蒙古大学学报(自然科学版);2006年06期
5 李振宏,高光来;印刷体蒙古文文字识别中常用特征的获取[J];微机发展;2003年11期
6 李伟,高光来,侯宏旭,李振宏;印刷体蒙古文字识别技术中切分方法的设计与实现[J];内蒙古大学学报(自然科学版);2003年03期
相关博士学位论文 前1条
1 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年
相关硕士学位论文 前8条
1 王霈s,
本文编号:1378659
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1378659.html
最近更新
教材专著