大规模甲骨文数据集构建及算法研究
发布时间:2020-07-01 19:29
【摘要】:甲骨文是源自中国的古老文字,与古埃及的象形文字、古印度的哈拉巴铭文、古巴比伦的楔形文字并列为四大文明古国的文字文明标志。甲骨文的研究从1899年首次发现从未停止,然而甲骨文研究相当依赖古文字专业人员。当前甲骨文领域待解决的问题仍有很多,如甲骨缀合、字迹鉴定、未释字破译,语义分析等。目前已发掘出土甲骨共十五万余片,因年代久远甲骨比较脆弱,颠沛流离过程中易破损等等,极少有人可以直接接触甲骨,拓本图像具有及其重要的作用。绝大多数甲骨文研究者都是基于拓片图像进行相关研究。随着计算机的发展,甲骨文研究有了字库、输入法及大量的摹本资料等等。本文旨在构造一个大规模的甲骨文基准数据集并开展相关的甲骨文识别算法对比实验,验证已有算法的性能与优缺点。已有的甲骨文识别算法所使用的数据来源于甲骨文数据库提取部分文字对应的少量图片样本或者人工生成数据集,文字图片背景较为单一,类别较少,噪声较少,无法将其研究成果直接应用于实际场景。而实际甲骨文拓片中的文字类别较多,仅可释字就有1500-2000字左右,还有3000左右的未释字。数据分布极度不均衡,部分文字出现频率极低。另外龟甲本身纹路、占卜过程中烧灼产生的裂纹、保存过程中破损、拓印技术的好坏等等多种原因造成拓片中噪声比较严重,且部分文字残损。基于此现状,本文研究内容分为以下三个方面:一、基于拓本图像,构建了一个按字标注的甲骨文基准数据集。该数据集可进行甲骨文检测与识别的相关研究。实验证明使用深度学习算法在六千余张训练样本的情况下可以取得较高的检测准确率,但识别准确率较低。二、在构造甲骨文数据集和基准实验的基础上,进行了两个较小的改进工作:第一:改进基追踪降噪算法。在简单基准实验的基础上,确定了稀疏表示算法是解决甲骨文识别任务的有效方法。在此基础上改进基追踪降噪算法的支持集更新方式,使其在小样本数据集中准确率得到提升,适用于强噪声多类不均衡样本的文字识别,在较少的特征数目下取得较高的准确率。实验结果表明,改进后的基追踪降噪算法取得比深度学习算法及基追踪降噪算法更加优异的结果。并在准确率、运行时间、资源使用率三方面达到均衡。第二:将批处理策略应用于非负二次规划活动集算法。为了解决基于稀疏表示的非负二次规划活动集算法在样本量过大时占用内存过多而造成内存溢出的问题,本文提出将批处理策略应用于非负二次规划活动集算法并设计多个分类器,取最优分类器实验结果作为最终预测准确率。实验证明,批处理非负二次规划活动集方法在解决样本量过大内存溢出问题的同时,在部分数据集上性能比原始算法更加优越。三、在此基础上,进行了基于非稀疏表示、深度学习和稀疏表示三类算法共33种算法的实验对比分析。根据算法准确率和运行时间等条件筛选出13种算法进行15个数据集的大规模实验并分析其准确率、运行时间和资源利用情况等以探寻最适合甲骨文数据集的算法。
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:K877.1;TP391.41
【图文】:
其中用到的甲骨文图片均为手动筛选的 114 种不同字形的甲骨文文字的共 1358 张图片,其中 114 中不同字形如图 3-1 所示。图3-1 日本情报处理学会使用的114种字形样本示例[31]每张图片包含一定的噪点,甚至面积较大的噪声,但所有样本均为完整的样本,即每张图片中的文字是完整的,无残缺的,如图 3-2 所示。
25图3-2 日本情报处理学会使用的部分字形多个样本示例[31]然后通过裁剪,反转,旋转,不同灰度对比度等多种方式做了数据增强,如图 3-3所示。然后再使用卷积神经网络进行甲骨文深度学习的训练与识别。图3-3 日本情报处理学会使用的图像增强样本示例[31]第二个比较典型的例子是 ICPRAM 2017 中的文献[42][42]中使用的甲骨文数据,其图片数据显示近乎黑白图片,极少有噪点和一些干扰的纹路之类的。其典型样本显示如图3-4 所示:
本文编号:2737180
【学位授予单位】:河南大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:K877.1;TP391.41
【图文】:
其中用到的甲骨文图片均为手动筛选的 114 种不同字形的甲骨文文字的共 1358 张图片,其中 114 中不同字形如图 3-1 所示。图3-1 日本情报处理学会使用的114种字形样本示例[31]每张图片包含一定的噪点,甚至面积较大的噪声,但所有样本均为完整的样本,即每张图片中的文字是完整的,无残缺的,如图 3-2 所示。
25图3-2 日本情报处理学会使用的部分字形多个样本示例[31]然后通过裁剪,反转,旋转,不同灰度对比度等多种方式做了数据增强,如图 3-3所示。然后再使用卷积神经网络进行甲骨文深度学习的训练与识别。图3-3 日本情报处理学会使用的图像增强样本示例[31]第二个比较典型的例子是 ICPRAM 2017 中的文献[42][42]中使用的甲骨文数据,其图片数据显示近乎黑白图片,极少有噪点和一些干扰的纹路之类的。其典型样本显示如图3-4 所示:
【参考文献】
相关期刊论文 前4条
1 高峰;吴琴霞;刘永革;熊晶;;基于语义构件的甲骨文模糊字形的识别方法[J];科学技术与工程;2014年30期
2 吕肖庆;李沫楠;蔡凯伟;王晓;唐英敏;;一种基于图形识别的甲骨文分类方法[J];北京信息科技大学学报(自然科学版);2010年S2期
3 李锋,周新伦;甲骨文自动识别的图论方法[J];电子科学学刊;1996年S1期
4 周新伦,李锋,华星城,韦剑;甲骨文计算机识别方法研究[J];复旦学报(自然科学版);1996年05期
本文编号:2737180
本文链接:https://www.wllwen.com/shekelunwen/kgx/2737180.html