基于深度学习的古籍词法分析研究
发布时间:2022-01-06 04:25
随着人工智能时代的到来,古籍信息处理研究受到了越来越多的关注。词法分析主要指对句子进行自动分词、词性标注和命名实体识别三大子任务,词法分析工作是古籍信息处理的基础,不经过高精度词法分析的古籍,难以进行深层次的信息处理工作。长期以来,古籍的词法分析受技术手段、标注资源的限制,研究进展较现代汉语显得颇为迟滞。本文研究重点在于将深度学习方法应用于古籍的自动断句、词法分析中以构建古籍自动标注平台,具体包括以下几个方面:第一,本文将深度学习中的LSTM-CRF这一模型结构运用到古籍词法分析中。使用文渊阁版《四库全书》训练字向量,在尽量覆盖更多古文字的基础上提升模型效果。以《左传》前十卷为训练语料,后两卷为测试语料,使用一体化词法分析方法同时得到分词、词性标注、命名实体识别的结果。实验结果为分词调和平均值94.81%,词性标注90.21%,人名实体识别82.79%,地名实体识别82.49%。经十折交叉验证法进一步验证了模型的效果,并经进一步的实验发现,如果将词性信息去除,命名实体识别的精度会略有提升。第二,设计制作了古籍专名信息词典数据库。对多部古籍资源中的数据进行梳理、整合,将不同来源、不同的数...
【文章来源】:南京师范大学江苏省 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2.2?Bi-LSTM-CRF模型结构图??2.5.3带有膨胀卷积核的卷积神经网络简介??在序列标注相关任务中,取得最好效果的往往是SchmidhubeH21l提出的长短??
?第2章相关研宂综述???〇?〇?〇?〇?〇?o^gjKQO?〇?〇?〇?〇?〇??o?o?ojcJo?°?°??图2.3四层ID卷积网络的膨胀卷积核??26??
?第3章--体化词法分析???句子又较短,给自动标注的精度带来很大挑战。《左传》K?有20514个人名和地??名实体,共4819个词型,其中可选标签超过2个的词W?707个,占14.67%。很??多单字词既有可能是实体,又有可能充当其他很多词性成分。??《左传》共3341个字型,不同标签数量的字符频率分布如图3.1所示:??30?^??25?-??20?-?!??18?26%??^?丨丨??紫?15?■?|??|?12?.36\??^?_10.21%??1〇?I?I??目?|?_?6.05S??■?■?■?^?4言%3.29S2?57S??0???■華■■擊■?_?故??1?2?3?4?5?6?7?8?9?1〇?11?12?13?14?15?16?17?18?19??标莶个数??图3.1?不同标签数量的字符分布图??可以看出,多数字符都含有多个候选标签,5个标签以上的卞?符约占30%,也有极个别??字符的标记数量达到15个以上,这无疑加剧了古汉语词法分析的凼难程度。我们将候选标??签数量最多的10个字符及其标签种类以及字符总频次如表3.1所小S??28??
【参考文献】:
期刊论文
[1]古文信息处理研究的现状及趋势[J]. 黄水清,王东波. 图书情报工作. 2017(12)
[2]基于多特征知识的先秦典籍词性自动标注研究[J]. 王东波,黄水清,何琳. 图书情报工作. 2017(12)
[3]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗. 中文信息学报. 2017(04)
[4]基于CRFs和词典信息的中古汉语自动分词[J]. 王晓玉,李斌. 数据分析与知识发现. 2017(05)
[5]基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J]. 朱丹浩,杨蕾,王东波. 现代图书情报技术. 2016(12)
[6]一种基于循环神经网络的古文断句方法[J]. 王博立,史晓东,苏劲松. 北京大学学报(自然科学版). 2017(02)
[7]基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J]. 叶辉,姬东鸿. 中国中医药图书情报杂志. 2016(05)
[8]基于深度信念网络的命名实体识别[J]. 冯蕴天,张宏军,郝文宁,陈刚. 计算机科学. 2016(04)
[9]基于CRF的古汉语分词标注模型研究[J]. 严顺. 江苏科技信息. 2016(08)
[10]基于《方志物产》的古籍知识组织路径探析[J]. 李娜,白振田,包平. 古今农业. 2016(01)
博士论文
[1]基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D]. 赵小兵.北京语言大学 2007
[2]统计中文词法分析及其强化学习机制的研究[D]. 姜维.哈尔滨工业大学 2007
硕士论文
[1]基于条件随机场的音乐领域命名实体识别[D]. 郝乐川.哈尔滨工业大学 2012
[2]基于CRF的古籍地名自动识别研究[D]. 王铮.广西民族大学 2008
[3]基于条件随机场的中文命名实体识别[D]. 向晓雯.厦门大学 2006
本文编号:3571727
【文章来源】:南京师范大学江苏省 211工程院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
图2.2?Bi-LSTM-CRF模型结构图??2.5.3带有膨胀卷积核的卷积神经网络简介??在序列标注相关任务中,取得最好效果的往往是SchmidhubeH21l提出的长短??
?第2章相关研宂综述???〇?〇?〇?〇?〇?o^gjKQO?〇?〇?〇?〇?〇??o?o?ojcJo?°?°??图2.3四层ID卷积网络的膨胀卷积核??26??
?第3章--体化词法分析???句子又较短,给自动标注的精度带来很大挑战。《左传》K?有20514个人名和地??名实体,共4819个词型,其中可选标签超过2个的词W?707个,占14.67%。很??多单字词既有可能是实体,又有可能充当其他很多词性成分。??《左传》共3341个字型,不同标签数量的字符频率分布如图3.1所示:??30?^??25?-??20?-?!??18?26%??^?丨丨??紫?15?■?|??|?12?.36\??^?_10.21%??1〇?I?I??目?|?_?6.05S??■?■?■?^?4言%3.29S2?57S??0???■華■■擊■?_?故??1?2?3?4?5?6?7?8?9?1〇?11?12?13?14?15?16?17?18?19??标莶个数??图3.1?不同标签数量的字符分布图??可以看出,多数字符都含有多个候选标签,5个标签以上的卞?符约占30%,也有极个别??字符的标记数量达到15个以上,这无疑加剧了古汉语词法分析的凼难程度。我们将候选标??签数量最多的10个字符及其标签种类以及字符总频次如表3.1所小S??28??
【参考文献】:
期刊论文
[1]古文信息处理研究的现状及趋势[J]. 黄水清,王东波. 图书情报工作. 2017(12)
[2]基于多特征知识的先秦典籍词性自动标注研究[J]. 王东波,黄水清,何琳. 图书情报工作. 2017(12)
[3]基于深度神经网络的中文命名实体识别[J]. 张海楠,伍大勇,刘悦,程学旗. 中文信息学报. 2017(04)
[4]基于CRFs和词典信息的中古汉语自动分词[J]. 王晓玉,李斌. 数据分析与知识发现. 2017(05)
[5]基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法[J]. 朱丹浩,杨蕾,王东波. 现代图书情报技术. 2016(12)
[6]一种基于循环神经网络的古文断句方法[J]. 王博立,史晓东,苏劲松. 北京大学学报(自然科学版). 2017(02)
[7]基于多特征条件随机场的《金匮要略》症状药物信息抽取研究[J]. 叶辉,姬东鸿. 中国中医药图书情报杂志. 2016(05)
[8]基于深度信念网络的命名实体识别[J]. 冯蕴天,张宏军,郝文宁,陈刚. 计算机科学. 2016(04)
[9]基于CRF的古汉语分词标注模型研究[J]. 严顺. 江苏科技信息. 2016(08)
[10]基于《方志物产》的古籍知识组织路径探析[J]. 李娜,白振田,包平. 古今农业. 2016(01)
博士论文
[1]基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D]. 赵小兵.北京语言大学 2007
[2]统计中文词法分析及其强化学习机制的研究[D]. 姜维.哈尔滨工业大学 2007
硕士论文
[1]基于条件随机场的音乐领域命名实体识别[D]. 郝乐川.哈尔滨工业大学 2012
[2]基于CRF的古籍地名自动识别研究[D]. 王铮.广西民族大学 2008
[3]基于条件随机场的中文命名实体识别[D]. 向晓雯.厦门大学 2006
本文编号:3571727
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3571727.html