当前位置:主页 > 外语论文 > 小语种论文 >

融合深度神经网络与统计学习的印地语词性标注方法研究

发布时间:2021-06-24 04:07
  针对统计模型受限于标注语料规模且不能捕获标注序列的上下文信息问题,提出一种融合深度学习和统计学习的印地语词性标注模型。该模型具有3层逻辑结构,首先在词表示层采用深度神经网络框架训练出印地语单词的形态特征,并利用word2vec方法对语料训练生成具有语义信息的低维度稠密实数词向量,然后在序列表示层将形态特征和词向量作为深度神经网络模型的输入并进行训练,得到输入序列的信息特征,最后在CRF推理层利用深度神经网络模型的输出状态和当前的转移概率矩阵作为CRF模型的参数,最终得到最优的标签序列。对提出的方法与其他方法进行了对比实验,结果表明融合深度学习和统计模型的方法较其他几种统计模型的性能有显著的提升。 

【文章来源】:湖南工业大学学报. 2020,34(03)

【文章页数】:6 页

【部分图文】:

融合深度神经网络与统计学习的印地语词性标注方法研究


LSTM模型的结构

模型图,模型,序列,词性标注


词性标注是自然语言处理领域的一种典型序列标注任务,其本质就是对线性序列中每个元素根据上下文内容进行分类的问题。词性标注的过程,就是给定一个一维线性输入序列X={x1, x2, x3, …, xn},通过利用规则、统计模型或深度学习模型,对该序列中的每个元素xi打上给定标签集合中的某个标签yi,从而得到输入序列的相应标签序列Y={y1, y2, y3, …, yn}。例如,给出一个印地语句子:????????? ?? ???? ????????? ?? ???? ????? ?????? ?????? |,通过词性标注方法进行标注后,可以得到如下的相应标注结果:?????????/NN ??/PRP ????/PRF ?????????/NN ??/PSP ????/VAUX ?????/RB ??????/JJ ??????/VM |/ PTT。在处理序列标注任务时,目前学术界较为流行的做法,是将统计模型与深度学习模型相结合[17-18],这样,一方面可以学习待标注序列中的依赖约束关系,另一方面也可以考虑到长距离的上下文关系,从而很好地结合两种模型的优点。

模型图,词性标注,模型,效果


由图3所示的多个模型的词性标注结果可以看出,CRF是基于统计学习模型中效果最好的,与HMM方法相比,其性能约提高了22%。BiLSTM模型的效果较CRF和BiLSTM+LAN方法的差,而CNN+LSTM+CRF能够得到更好的效果。整体上看,在深度学习模型基础上加上CRF,其效果并未比深度学习模型有很大的提升,一个可能的原因是神经网络编码器已有很强序列信息编码能力,在此基础上加上CRF并未引入更多有效信息。

【参考文献】:
期刊论文
[1]一种新的朝鲜语词性标注方法[J]. 金国哲,崔荣一.  中文信息学报. 2018(10)
[2]融合形态特征的最大熵维吾尔语词性标注[J]. 帕力旦·吐尔逊,房鼎益.  西北大学学报(自然科学版). 2015(05)



本文编号:3246334

资料下载
论文发表

本文链接:https://www.wllwen.com/waiyulunwen/zhichangyingyu/3246334.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64de2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com