当前位置:主页 > 文艺论文 > 语言艺术论文 >

基于Bi-LSTM-CRF的古汉语虚词词性标注系统

发布时间:2020-07-15 00:36
【摘要】:虚词在汉语中具有连接语义的重要功能,却很少应用于搜索引擎、机器翻译、人机对话这类对语义理解要求高的领域。古汉语虚词随时代发展演变出的诸多义项和用法,也成为阅读和理解古文的一大阻碍。现代汉语虚词由古汉语虚词演变而来,对现代汉语虚词的研究离不开源头的探寻。本文以古汉语虚词词性标注为切入点,尝试解决古汉语虚词词性的自动标注问题,以期能更好的应用于自然语言处理相关领域。面对古汉语虚词词性标注语料的稀缺,本文首先从虚词词典中提取了源数据,并将源数据一步步整理为虚词词性标注语料,运用数据增强手法对语料进行扩充;根据词典数据按词条聚合阐述义项的特点,提出了词条特征的使用。然后使用提取的虚词词性标注语料对Bi-LSTM-CRF模型进行训练,对比未采用词条特征的模型,采用词条特征的模型提升显著,证明了词条特征对于提升模型预测准确率的有效性。使用未扩充语料训练的模型在测试集上的一级词性F1值和二级词性F1值分别为75.61%和67.82%;使用扩充语料训练的模型在测试集上一级词性F1值和二级词性F1值分别为98.22%和97.10%。最后,利用训练好的Bi-LSTM-CRF模型,设计并实现了古汉语虚词词性标注系统。由于训练语料规模较小,不足以涵盖古汉语虚词的所有特征,开放测试集下表现与封闭测试集存在较大差距。对比现有的一款词性标注工具,本系统在古汉语虚词词性标注上优势明显,基本完成系统实现目标。
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;H131
【图文】:

虚词,词性,源数据,标注词性


华 中 科 技 大 学 硕 士 学 位 论 文整体视为复音虚词标注词性,还是作为单音虚词单独标注词性。第三点是本次语料的重大缺陷之一,最终导致了模型对虚词所具有的实词词性缺乏判别能力。虚词

语料,虚词


能否拟合训练集。由于手头古汉语虚词词性标注语料的缺乏,需要从零开始准备语料数据。本节将分五小节,分别为语料提取、数据清洗、定位词性、语料校对及扩充、语料生成。每一小节为前后相关的一步,分步阐述每一步完成的主要内容。2.2.1 语料提取语料数据来源于虚词词典,数据源格式为 PDF 扫描文件,其中的文字无法被计算机直接识别和处理,为此,借助 OCR 技术和人工校对修改,完整提取了词典正文部分和助动词介绍部分数据,提取的数据各部分单音虚词皆按照拼音排序,第一行以单音虚词简体为字头,其后为繁体字或异体字,之后为该单音虚词的汉语拼音。第二行为虚词具有的所有一级词性,之后是对一级词性进行展开,辅以用法,例句,例句释义。然后是固定搭配,复音虚词,以及虚词外的附加词性,如动词,名词,形容词等。至此,完成第一步的语料提取,其形式如图 2-2 所示。

语料,标记符号


此次去除的内容有:拼音、用法、义项、引例出处、译文、注意等。所采用的标记及其意义见表 2-2。表 2-2 语料标记符号表标记符号 意义* 标记单音虚词词条的开始| 如果除简体字外还有繁体字或异体字,用于分隔@ 标记例句开始& 标记词性开始【 标记复音虚词和惯用词组开始】 标记复音虚词和惯用词组结束,及其对应词性的开始在除去本次词性标注系统不需要内容,给需要内容打上标记数据后,完成第二步语料整理,语料形式如图 2-3 所示。

【相似文献】

相关期刊论文 前10条

1 滕华英;;古汉语虚词教学方法探讨[J];长春师范学院学报;2013年11期

2 周宇;;对古汉语虚词的几点看法[J];文学教育(上);2013年03期

3 黄海英;;俞敏先生古汉语虚词研究方法论析[J];武陵学刊;2011年06期

4 张玉金;;出土文献与上古汉语虚词研究[J];华南师范大学学报(社会科学版);2009年03期

5 刘旭;程晏萍;;虚不失其重——论古汉语虚词英译理解的几个关键[J];华中农业大学学报(社会科学版);2005年Z1期

6 陈应中;;古汉语虚词辨源[J];辽宁师范大学学报;1987年05期

7 乔惟森;;《庄子》“者”析[J];西北民族大学学报(哲学社会科学版);1987年02期

8 蒋宗许;;古汉语虚词研究的继承和发展——评《古代汉语虚词通释》[J];辞书研究;1988年05期

9 班吉庆;;试论《说文》对古汉语虚词的认识[J];扬州师院学报(社会科学版);1988年03期

10 方平权;;《实用古汉语虚词详释》评介[J];语文研究;1988年01期

相关会议论文 前2条

1 赵大明;;古汉语虚词研究的最新进展——评《古代汉语虚词词典》[A];中国辞书论集2001[C];2001年

2 祁艳;;“自V”结构中“自”的浅谈[A];江西省语言学会2004年年会论文集[C];2004年

相关硕士学位论文 前6条

1 陈火龙;基于Bi-LSTM-CRF的古汉语虚词词性标注系统[D];华中科技大学;2019年

2 张志刚;古汉语虚词与修辞[D];内蒙古师范大学;2010年

3 刘旭;虚不失其重——论古汉语虚词的英译[D];武汉理工大学;2004年

4 王红生;元代以来的古汉语虚词研究[D];新疆大学;2006年

5 郭灵云;古汉语虚词研究史[D];内蒙古师范大学;2003年

6 赵孜;研究生创新能力的培养[D];湖南科技大学;2013年



本文编号:2755709

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2755709.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户fb46f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com