基于Bi-LSTM-CRF的古汉语虚词词性标注系统
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;H131
【图文】:
华 中 科 技 大 学 硕 士 学 位 论 文整体视为复音虚词标注词性,还是作为单音虚词单独标注词性。第三点是本次语料的重大缺陷之一,最终导致了模型对虚词所具有的实词词性缺乏判别能力。虚词
能否拟合训练集。由于手头古汉语虚词词性标注语料的缺乏,需要从零开始准备语料数据。本节将分五小节,分别为语料提取、数据清洗、定位词性、语料校对及扩充、语料生成。每一小节为前后相关的一步,分步阐述每一步完成的主要内容。2.2.1 语料提取语料数据来源于虚词词典,数据源格式为 PDF 扫描文件,其中的文字无法被计算机直接识别和处理,为此,借助 OCR 技术和人工校对修改,完整提取了词典正文部分和助动词介绍部分数据,提取的数据各部分单音虚词皆按照拼音排序,第一行以单音虚词简体为字头,其后为繁体字或异体字,之后为该单音虚词的汉语拼音。第二行为虚词具有的所有一级词性,之后是对一级词性进行展开,辅以用法,例句,例句释义。然后是固定搭配,复音虚词,以及虚词外的附加词性,如动词,名词,形容词等。至此,完成第一步的语料提取,其形式如图 2-2 所示。
此次去除的内容有:拼音、用法、义项、引例出处、译文、注意等。所采用的标记及其意义见表 2-2。表 2-2 语料标记符号表标记符号 意义* 标记单音虚词词条的开始| 如果除简体字外还有繁体字或异体字,用于分隔@ 标记例句开始& 标记词性开始【 标记复音虚词和惯用词组开始】 标记复音虚词和惯用词组结束,及其对应词性的开始在除去本次词性标注系统不需要内容,给需要内容打上标记数据后,完成第二步语料整理,语料形式如图 2-3 所示。
【相似文献】
相关期刊论文 前10条
1 滕华英;;古汉语虚词教学方法探讨[J];长春师范学院学报;2013年11期
2 周宇;;对古汉语虚词的几点看法[J];文学教育(上);2013年03期
3 黄海英;;俞敏先生古汉语虚词研究方法论析[J];武陵学刊;2011年06期
4 张玉金;;出土文献与上古汉语虚词研究[J];华南师范大学学报(社会科学版);2009年03期
5 刘旭;程晏萍;;虚不失其重——论古汉语虚词英译理解的几个关键[J];华中农业大学学报(社会科学版);2005年Z1期
6 陈应中;;古汉语虚词辨源[J];辽宁师范大学学报;1987年05期
7 乔惟森;;《庄子》“者”析[J];西北民族大学学报(哲学社会科学版);1987年02期
8 蒋宗许;;古汉语虚词研究的继承和发展——评《古代汉语虚词通释》[J];辞书研究;1988年05期
9 班吉庆;;试论《说文》对古汉语虚词的认识[J];扬州师院学报(社会科学版);1988年03期
10 方平权;;《实用古汉语虚词详释》评介[J];语文研究;1988年01期
相关会议论文 前2条
1 赵大明;;古汉语虚词研究的最新进展——评《古代汉语虚词词典》[A];中国辞书论集2001[C];2001年
2 祁艳;;“自V”结构中“自”的浅谈[A];江西省语言学会2004年年会论文集[C];2004年
相关硕士学位论文 前6条
1 陈火龙;基于Bi-LSTM-CRF的古汉语虚词词性标注系统[D];华中科技大学;2019年
2 张志刚;古汉语虚词与修辞[D];内蒙古师范大学;2010年
3 刘旭;虚不失其重——论古汉语虚词的英译[D];武汉理工大学;2004年
4 王红生;元代以来的古汉语虚词研究[D];新疆大学;2006年
5 郭灵云;古汉语虚词研究史[D];内蒙古师范大学;2003年
6 赵孜;研究生创新能力的培养[D];湖南科技大学;2013年
本文编号:2755709
本文链接:https://www.wllwen.com/wenyilunwen/yuyanyishu/2755709.html