当前位置:主页 > 文艺论文 > 汉语言论文 >

基于深度学习的中文语法错误诊断方法研究

发布时间:2021-07-06 12:49
  随着中国国际影响力的日益提高和汉语国际地位的提升,学习和使用汉语的国际学者越来越多。中文文本校对技术有助于各个领域处理所涉及到的文本错误,其中中文语法错误诊断是中文计算机辅助学习的研究热点之一。鉴于此,根据中文语法错误诊断的特点,通过分析现有中文语法错误诊断方法存在的问题,提出一种基于注意机制的双向长短期记忆网络(BI-LASM-ATT)与条件随机场(CRF)相结合的模型应用于中文语法错误诊断研究。该模型采用jieba分词技术对数据进行分词和词性标注等预处理工作,利用Skip-gram模型得到词向量表示,作为BI-LSTM-ATT模型的词嵌入层,获取到两个方向上的长距离信息提供给CRF模型进行序列标注。在NLPCC2018的TASK2提供的数据集上的实验结果表明,该模型对比传统语法错误诊断模型,在中文语法错误诊断的Accuracy、精确率、召回率和Fmeature方面均有明显提高。 

【文章来源】:计算机技术与发展. 2020,30(11)

【文章页数】:5 页

【部分图文】:

基于深度学习的中文语法错误诊断方法研究


基于BI-LSTM-ATT与CRF的中文语法错误诊断研究框架

模型图,模型,标签,上下文


词嵌入层的作用在于通过大量样本训练Word2vec输入词向量,提供给下一层使用。应用Skip-gram模型分别将输入词和POS标签作为中心词,预测出其上下文词和上下文POS标签为输出词。训练前,将语料库中的所有n个词语进行独热编码为w(i)∈Rn,同时对输出也进行独热编码。Skip-gram模型结构如图2所示。Skip-gram模型分为三层:第一层为输入层(INPUT),w(i)为输入语句的每个词语,以此作为输入词;第二层为投影层(PROJECTION);第三层为输出层(OUTPUT),窗口为c,假设c取5,得到目标单词w(i)上下文中的5c个词向量(w(i-5),…,w(i-1),w(i+1),…,w(i+5)),即输入词的邻近词的概率分布。同理,再将每个词POS标签p(i)作为输入,得到其上下文POS标签向量(p(i-5),…,p(i-1),p(i+1),…,p(i+5)),即输入词POS标签的邻近POS标签的概率分布。

模型图,机制,模型,句子


1997年,Hochreiter与Schmidhuber提出对递归神经网络(recurrent neural network,RNN)进行优化,得到了长短期记忆网络(long short term memory networks,LSTM)[14],解决了长序列学习的梯度消失问题[15]。近年来,很多学者在自然语言处理的研究应用中,针对具体问题,对LSTM模型进行各种形式的改进都取得了不错的应用效果[16]。该文采用BI-LSTM-ATT模型,通过充分利用序列上下文中所有可能对标记有用的信息,即提取词过去和未来的特征来提升标签的准确度,如图3所示。图3所用的模型在传统LSTM模型的基础上增加了注意机制。向量xi表示一个句子中的每个词语,使用双向LSTM模型得到 h i =[ h → i , h ← i ] 的集合表示整个句子样本的句子向量。模型中的注意机制计算出每个元素的概率权重αit,抽取对整句重要的词向量构成最终特征向量,相关计算公式如式(1)所示。

【参考文献】:
期刊论文
[1]基于深度神经网络的个性化学习行为评价方法[J]. 郎波,樊一娜.  计算机技术与发展. 2019(07)
[2]基于词向量Doc2vec的双向LSTM情感分析[J]. 张俊飞,毕志升,吴小玲.  计算机与数字工程. 2018(12)
[3]基于HMM和ANN混合模型的语音情感识别研究[J]. 林巧民,齐柱柱.  计算机技术与发展. 2018(10)
[4]《国家中长期语言文字事业改革和发展规划纲要(2012—2020年)》[J].   语文建设. 2013(28)

硕士论文
[1]Bi-LSTM-CRF模型在中文语法错误诊断中的应用研究[D]. 刘升.华中师范大学 2019
[2]基于神经网络的中文语法纠错关键技术研究[D]. 杨劲男.云南大学 2018
[3]面向问答的中文语法错误自动检测方法研究[D]. 韩文颖.哈尔滨工业大学 2015



本文编号:3268274

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3268274.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3c14c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com