基于深度学习的典籍介宾句法结构自动识别研究
发布时间:2023-04-19 03:24
古汉语典籍是中华民族文化和历史的承载与见证,通过典籍能够还原、了解中国古代社会的样貌,因此典籍中有着丰富的宝藏等待研究者去挖掘。随着科学技术的发展,人们开始用计算机来处理自然语言,有关自然语言处理的技术越来越多。虽然中文信息处理发展飞速,尤其是现代汉语文本方面取得了丰硕的成果,但有关古文信息化处理的研究较少,这与现代汉语文本成果形成了鲜明的对比。当前国内的古文信息处理的研究处于滞后状态且大多数研究都集中在典籍数字化、自动分词、词性标注等方面,少有关于古文句法层面的研究。要挖掘典籍中的知识,首先要实现对典籍的句法分析。句法分析就是分析句子中的词语语法功能,又分为句法结构分析和依存关系分析两种。但是完整的句法分析有较大的难度,可以通过浅层句法分析来解构句子的组成。介宾结构的自动识别就是浅层句法分析中的一部分。古汉语的语法与现代汉语的语法有较大的差异,这也是古汉语典籍晦涩难懂的原因之一,但是古汉语与现代汉语在介宾结构上有着很大的相似点,介宾结构有着引出相关的时间、地点、人物、原因、目的、方式等等语法意义,因而介宾结构的识别与结构的分析直接关系到人们对句子的理解。如果能够实现典籍的介宾结构识别...
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究内容
第二章 文献综述与模型原理
2.1 相关理论方法
2.1.1 句法分析
2.1.2 国内外浅层句法分析研究综述
2.1.3 介宾结构识别
2.1.4 深度学习的发展
2.1.5 序列标注
2.1.6 古文信息处理研究综述
2.2 相关模型原理
2.2.1 CRF模型
2.2.2 LSTM模型
2.2.3 BERT模型
2.3 本章小结
第三章 语料分析
3.1 清华汉语树库
3.1.1 清华汉语树库结构分析
3.1.2 清华汉语树库介宾结构统计
3.2 《史记》语料介词分布分析
3.3 清华汉语树库介宾结构与《史记》介宾结构比较
3.4 《史记》语料构建与分析
3.4.1 《史记》语料标注
3.4.2 《史记》语料介宾结构分析
3.5 本章小结
第四章 清华汉语树库实验
4.1 清华汉语树库语料处理
4.2 实验目的
4.3 清华汉语树库CRF实验
4.3.1 CRF特征选择
4.3.2 窗口长度的选择
4.3.3 特征模板设置
4.3.4 CRF实验
4.3.5 不同语料处理对识别结果的影响分析
4.4 Bi-LSTM-CRF模型实验
4.4.1 词向量的获取
4.4.2 参数的设置
4.4.3 十折交叉验证
4.5 BERT模型十折实验
4.5.1 预训练模型
4.5.2 识别模型结果
4.6 本章小结
第五章 《史记》介宾结构识别研究
5.1 基于CRF++的史记介宾结构识别
5.1.1 特征与特征模板选择
5.1.2 识别模型结果
5.2 基于Bi-LSTM-CRF模型的《史记》介宾结构识别
5.2.1 词向量与字向量的获取
5.2.2 参数设置
5.2.3 识别模型训练结果
5.2.4 不同语料处理对识别结果的影响分析
5.3 基于BERT的《史记》介宾结构识别
5.4 不同模型方法字单位识别效果分析
5.5 典籍介宾结构自动识别平台搭建
5.5.1 网站的布局设计
5.5.2 平台使用示例
5.6 本章小结
第六章 总结和展望
6.1 总结
6.2 不足和展望
参考文献
致谢
本文编号:3793619
【文章页数】:81 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 研究内容
第二章 文献综述与模型原理
2.1 相关理论方法
2.1.1 句法分析
2.1.2 国内外浅层句法分析研究综述
2.1.3 介宾结构识别
2.1.4 深度学习的发展
2.1.5 序列标注
2.1.6 古文信息处理研究综述
2.2 相关模型原理
2.2.1 CRF模型
2.2.2 LSTM模型
2.2.3 BERT模型
2.3 本章小结
第三章 语料分析
3.1 清华汉语树库
3.1.1 清华汉语树库结构分析
3.1.2 清华汉语树库介宾结构统计
3.2 《史记》语料介词分布分析
3.3 清华汉语树库介宾结构与《史记》介宾结构比较
3.4 《史记》语料构建与分析
3.4.1 《史记》语料标注
3.4.2 《史记》语料介宾结构分析
3.5 本章小结
第四章 清华汉语树库实验
4.1 清华汉语树库语料处理
4.2 实验目的
4.3 清华汉语树库CRF实验
4.3.1 CRF特征选择
4.3.2 窗口长度的选择
4.3.3 特征模板设置
4.3.4 CRF实验
4.3.5 不同语料处理对识别结果的影响分析
4.4 Bi-LSTM-CRF模型实验
4.4.1 词向量的获取
4.4.2 参数的设置
4.4.3 十折交叉验证
4.5 BERT模型十折实验
4.5.1 预训练模型
4.5.2 识别模型结果
4.6 本章小结
第五章 《史记》介宾结构识别研究
5.1 基于CRF++的史记介宾结构识别
5.1.1 特征与特征模板选择
5.1.2 识别模型结果
5.2 基于Bi-LSTM-CRF模型的《史记》介宾结构识别
5.2.1 词向量与字向量的获取
5.2.2 参数设置
5.2.3 识别模型训练结果
5.2.4 不同语料处理对识别结果的影响分析
5.3 基于BERT的《史记》介宾结构识别
5.4 不同模型方法字单位识别效果分析
5.5 典籍介宾结构自动识别平台搭建
5.5.1 网站的布局设计
5.5.2 平台使用示例
5.6 本章小结
第六章 总结和展望
6.1 总结
6.2 不足和展望
参考文献
致谢
本文编号:3793619
本文链接:https://www.wllwen.com/tushudanganlunwen/3793619.html