基于深度学习的古籍词法分析研究

发布时间：2022-01-06 04:25

　　随着人工智能时代的到来,古籍信息处理研究受到了越来越多的关注。词法分析主要指对句子进行自动分词、词性标注和命名实体识别三大子任务,词法分析工作是古籍信息处理的基础,不经过高精度词法分析的古籍,难以进行深层次的信息处理工作。长期以来,古籍的词法分析受技术手段、标注资源的限制,研究进展较现代汉语显得颇为迟滞。本文研究重点在于将深度学习方法应用于古籍的自动断句、词法分析中以构建古籍自动标注平台,具体包括以下几个方面:第一,本文将深度学习中的LSTM-CRF这一模型结构运用到古籍词法分析中。使用文渊阁版《四库全书》训练字向量,在尽量覆盖更多古文字的基础上提升模型效果。以《左传》前十卷为训练语料,后两卷为测试语料,使用一体化词法分析方法同时得到分词、词性标注、命名实体识别的结果。实验结果为分词调和平均值94.81%,词性标注90.21%,人名实体识别82.79%,地名实体识别82.49%。经十折交叉验证法进一步验证了模型的效果,并经进一步的实验发现,如果将词性信息去除,命名实体识别的精度会略有提升。第二,设计制作了古籍专名信息词典数据库。对多部古籍资源中的数据进行梳理、整合,将不同来源、不同的数...

【文章来源】：南京师范大学江苏省 211工程院校

【文章页数】：79 页

【学位级别】：硕士

【部分图文】：

基于深度学习的古籍词法分析研究

图２．２?Ｂｉ－ＬＳＴＭ－ＣＲＦ模型结构图??２．５．３带有膨胀卷积核的卷积神经网络简介??在序列标注相关任务中，取得最好效果的往往是ＳｃｈｍｉｄｈｕｂｅＨ２１ｌ提出的长短??

卷积核,卷积

?第２章相关研宂综述???〇?〇?〇?〇?〇?ｏ＾ｇｊＫＱＯ?〇?〇?〇?〇?〇??ｏ?ｏ?ｏｊｃＪｏ?°?°??图２．３四层ＩＤ卷积网络的膨胀卷积核??２６??

分布图,标签,字符,分布图

?第３章－－体化词法分析???句子又较短，给自动标注的精度带来很大挑战。《左传》Ｋ？有２０５１４个人名和地??名实体，共４８１９个词型，其中可选标签超过２个的词Ｗ?７０７个，占１４．６７％。很??多单字词既有可能是实体，又有可能充当其他很多词性成分。??《左传》共３３４１个字型，不同标签数量的字符频率分布如图３．１所示：??３０?＾??２５?－??２０?－?！??１８?２６％??＾?丨丨??紫?１５?■?｜??｜?１２?．３６＼??＾?＿１０．２１％??１〇?Ｉ?Ｉ??目?｜?＿?６．０５Ｓ??■?■?■?＾?４言％３．２９Ｓ２?５７Ｓ??０???■華■■擊■?＿?故??１?２?３?４?５?６?７?８?９?１〇?１１?１２?１３?１４?１５?１６?１７?１８?１９??标莶个数??图３．１?不同标签数量的字符分布图??可以看出，多数字符都含有多个候选标签，５个标签以上的卞？符约占３０％，也有极个别??字符的标记数量达到１５个以上，这无疑加剧了古汉语词法分析的凼难程度。我们将候选标??签数量最多的１０个字符及其标签种类以及字符总频次如表３．１所小Ｓ??２８??

【参考文献】：
期刊论文
[1]古文信息处理研究的现状及趋势[J]. 黄水清,王东波.  图书情报工作. 2017(12)
[2]基于多特征知识的先秦典籍词性自动标注研究[J]. 王东波,黄水清,何琳.  图书情报工作. 2017(12)
[3]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗.  中文信息学报. 2017(04)
[4]基于CRFs和词典信息的中古汉语自动分词[J]. 王晓玉,李斌.  数据分析与知识发现. 2017(05)
[5]基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J]. 朱丹浩,杨蕾,王东波.  现代图书情报技术. 2016(12)
[6]一种基于循环神经网络的古文断句方法[J]. 王博立,史晓东,苏劲松.  北京大学学报(自然科学版). 2017(02)
[7]基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J]. 叶辉,姬东鸿.  中国中医药图书情报杂志. 2016(05)
[8]基于深度信念网络的命名实体识别[J]. 冯蕴天,张宏军,郝文宁,陈刚.  计算机科学. 2016(04)
[9]基于CRF的古汉语分词标注模型研究[J]. 严顺.  江苏科技信息. 2016(08)
[10]基于《方志物产》的古籍知识组织路径探析[J]. 李娜,白振田,包平.  古今农业. 2016(01)

博士论文
[1]基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D]. 赵小兵.北京语言大学 2007
[2]统计中文词法分析及其强化学习机制的研究[D]. 姜维.哈尔滨工业大学 2007

硕士论文
[1]基于条件随机场的音乐领域命名实体识别[D]. 郝乐川.哈尔滨工业大学 2012
[2]基于CRF的古籍地名自动识别研究[D]. 王铮.广西民族大学 2008
[3]基于条件随机场的中文命名实体识别[D]. 向晓雯.厦门大学 2006

本文编号：3571727

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3571727.html

上一篇：三轴陀螺稳定平台的关键技术研究
下一篇：基于云存储的污水处理数据集中监控系统的研究与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|