当前位置:主页 > 文艺论文 > 语言学论文 >

Bi-LSTM-CRF模型在中文语法错误诊断中的应用研究

发布时间:2020-03-28 02:57
【摘要】:随着中国国际地位的日益提高,汉语学习对于国际学习者的发展变得越来越重要。本文探讨的中文语法错误诊断(CGED)任务的目标是开发一款计算机自动辅助工具并通过该工具协助第二语言为汉语的外国学习者更好地学习中文,同时减轻汉语教师的辅导压力。中文语法错误诊断研究旨在建立一个模型自动检测学习者在汉语写作过程中所犯的错误及错误所在位置。本研究中错误可分成四类,分别是:用词冗余、词语缺失、词语选择错误、词语排序错误。中文语法错误诊断研究的难点在于:该任务涉及到自然语言处理的不同层面信息,将涉及汉语的词法分析和句法分析等,因此需要多方面统筹考虑以辅助研判。此外,中文中包含了丰富的语言知识,语法表示形式多样化,当判断一句话中是否包含错误以及何种类型的错误时,往往还需要引入外部知识。鉴于此,本文提出采用pyltp进行数据预处理,pyltp的个性化分词特点更适合该任务,这是因为中文语法错误诊断的数据集大多来自不同外国学生写的中国作文,其中涉及众多不同主题。个性化分词则可在一定程度上缓解主题依赖性,当面对新主题时,用户只需标注少量数据即可,个性化分词会在原有数据基础上进行增量训练,从而达到既利用原来主题的数据信息,又兼顾目标主题的特殊性。此外,本文提出利用双向长短期记忆网络(Bi-LSTM)来建模,能更好地利用双向的上下文信息判断句子是否有误。在此基础上,我们将中文语法错误诊断视为一种特殊的序列标注任务来求解。针对序列标注问题,条件随机场(CRF)模型比传统的隐马尔科夫模型(HMM)和最大熵马尔科夫模型(MEMM)有更好的表现,且Bi-LSTM模型还可缓解CRF模型中人工特征选择及难以捕获长距离上下文信息依赖的不足。于是,本文进一步提出将Bi-LSTM和CRF模型结合起来。其中,Bi-LSTM用于获取两个方向上的长距离信息,然后将信息提供给CRF模型进行序列标注。在该任务开放标准评测数据集上的实验结果表明本文提出的Bi-LSTM-CRF模型在中文语法错误诊断任务中的实际效果比单独使用Bi-LSTM模型或CRF模型均有显著提高。
【图文】:

结构图,嵌入层,结构图,神经网络模型


3.3.1邋Bi-LSTM神经网络模型介绍逡逑如下图所示,单一错误类型中文语法错误诊断(CGED)的Bi-LSTM神经网络逡逑模型的体系结构可以通过以下三个专门的层来表征,如图3.3所示:(丨)嵌入层逡逑(2)编码层(3)解码层逡逑㈧丨p丨,-丨/,,如’逡逑,逦—逦 ̄N逡逑Lookup邋Table逦/逦t逦'逡逑IH+ffl邋Ibgffl逡逑、逦逦y逡逑逦'逦>邋concatenate逡逑Bi-LSTM逡逑逦>|邋LSTM(f)邋| ̄ ̄逦?逡逑逦逦\——LSTM(b]|—逡逑v逦^逡逑六,…,…m_.m邋!邋11逡逑、邋^邋^邋'、逡逑Lin,r—邋[M邋II邋II邋N逡逑图3.3单错误型CGED的Bi-LSTM神经网络模型体系结构逡逑20逡逑

体系结构图,神经网络模型,体系结构,嵌入层


i逡逑W邋Vi邋V^Va邋……Vn邋^1逡逑图3.2嵌入层结构图逡逑3.3邋Bi-LSTM邋层逡逑3.3.1邋Bi-LSTM神经网络模型介绍逡逑如下图所示,单一错误类型中文语法错误诊断(CGED)的Bi-LSTM神经网络逡逑模型的体系结构可以通过以下三个专门的层来表征,如图3.3所示:(丨)嵌入层逡逑(2)编码层(3)解码层逡逑㈧丨p丨,-丨/,如’逡逑,逦—逦 ̄N逡逑Lookup邋Table逦/逦t逦'逡逑IH+ffl邋Ibgffl逡逑、逦逦y逡逑逦'逦>邋concatenate逡逑Bi-LSTM逡逑逦>|邋LSTM(f)邋| ̄ ̄逦?逡逑逦逦\——LSTM(b]|—逡逑v逦^逡逑六,…,…m_.m邋!邋11逡逑、邋^邋^邋'、逡逑Lin,r—邋[M邋I
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:H195;TP391.1

【参考文献】

相关期刊论文 前7条

1 胡元江;;基于语料库的英语专业高年级学生口语词块结构特征研究[J];外语研究;2015年05期

2 麦合甫热提;艾山·吾买尔;麦热哈巴·艾力;吐尔根·伊布拉音;张健;;基于词典和统计相结合的维吾尔语拼写检查方法[J];中文信息学报;2014年02期

3 蔡昌群;;在英语学习中树立学生的自信心[J];学园;2014年01期

4 沈荣;;人工神经网络的基本模型[J];中国科技信息;2012年08期

5 张仰森,丁冰青;基于二元接续关系检查的字词级自动查错方法[J];中文信息学报;2001年03期

6 周明,黄昌宁;面向语料库标注的汉语依存体系的探讨[J];中文信息学报;1994年03期

7 李寄;汉语是世界上最古老的语言之一[J];语言教学与研究;1979年02期

相关博士学位论文 前3条

1 庄航;基于深度学习的中文词表示学习技术研究[D];中国科学技术大学;2018年

2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年

3 常甜甜;支持向量机学习算法若干问题的研究[D];西安电子科技大学;2010年

相关硕士学位论文 前4条

1 张真真;基于卷积神经网络和条件随机场的眼底图像血管分割研究[D];湘潭大学;2018年

2 李育光;汉语优选语义类的自动获取研究[D];郑州大学;2018年

3 吴昊;垂直搜索引擎关键技术研究及分布式实现[D];东南大学;2016年

4 鞠菲;专业领域未登录词识别研究[D];华东师范大学;2013年



本文编号:2603817

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2603817.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户29661***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com