基于LSTM的藏文词拼写检查技术研究

发布时间：2021-10-25 03:22

　　文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。拼写检查是利用计算机快速的检测文本中的错误,能够提高文本校对的效率,是文本校对中采用的一种首选技术。英、汉文本的拼写检查技术已取得了丰硕的成果,并广泛地应用于各种字处理软件。与英、汉文本的拼写检查技术相比,藏文文本的拼写检查技术还处于起步阶段,其研究在藏语语料库建设、语音识别、文字识别等诸多方面具有广泛的应用价值。本文借鉴英、汉文本的拼写检查技术,通过分析藏文文本中的错误类型和藏文拼写检查研究现状,提出了基于TC_LSTM（Tibetan Characters LSTM,TC_LSTM）语言模型的藏文词拼写检查方法。主要内容包括:（1）建立了实验语料藏语目前没有统一的语言模型训练和测试实验语料,因此我们利用爬虫技术从藏文网站中获取了大小为186MB,包含15147315个音节的藏文文本语料,并对其进行了预处理,得到了较高质量的实验语料。（2）构建TC_LSTM语言模型藏文是字的序...

【文章来源】：青海师范大学青海省

【文章页数】：52 页

【学位级别】：硕士

【部分图文】：

基于LSTM的藏文词拼写检查技术研究

循环神经网络模型结构图

结构图,结构图,激活函数,隐藏层

士学位论文10层到输出层的权重，每个时刻、V和W都是相等的（权重共享）。隐藏层的状态通过非线性变换得到模型最终输出（预测值）{11+1}，其维度根据任务不同而不同，比如对于一个二分类任务来说其维度就等于2。每个时刻的标签（目标值）向量为{11+1}，一般用one-hot向量表示，其维度与{11+1}相同。{11+1}是每个时刻的预测值{11+1}和目标值之间的误差函数，来衡量预测值和目标值之间的误差，模型训练是要最小化两者之间的误差。循环神经网络每个时刻隐藏层内部的计算流程如图2-4所示：图2-4标准RNN内部结构图其对应的数学公式如下：=(+1+)=(+)(2-1)(2-2)其中和为激活函数，从图中可以看到一般采用的是tanh激活函数。g根据任务的不同选取的激活函数也不同，对于二分类的任务来说可以选取sigmod激活函数，因其值在0和1之间，可设置一个阈值，如果通过sigmod激活函数得到的值小于阈值分为一类，反之分为另一类。对于多分类任务来说则选用Softmax函数，其作用是将+得到的值做概率归一化处理，处理后得到的值中哪个概率最大就分为该类。RNN用随时间的反向传播(BackPropagationTroughTime，BPTT)算法训练，序列长度过长时，会出现梯度消失和梯度爆炸问题[48]。对于梯度爆炸可以采取梯度截取的方法解决，但梯度消失问题很难解决，因而RNN会出现无法捕获长远距离的依赖关系。2.2.2LSTM1997年由Hochreiter&Schmidhuber在RNN的基础上提出长短期记忆网络（LongShort-TermMemory，LSTM）[49]，用来解决RNN无法捕获长距离依赖的问题，从而使RNN真正有效的利用序列数据的长远距离信息。LSTM在RNN隐藏层神经元内部加入输入门、遗忘门、输出门及记忆单元来控制不同时

结构图,神经元,结构图,单元

基于LSTM的藏文词拼写检查技术研究11态和输出，其内部结构如图2-5所示。图2-5LSTM神经元内部结构图LSTM神经元的输入和输出可以通过公式（2-3）~（2-8）表示：=([1,]+)=([1,]+)=([1,]+)=⊙1+⊙=([1,]+)=⊙tanh()(2-3)(2-4)(2-5)(2-6)(2-7)(2-8)其中，σ表示神经网络中的sigmod激活函数，表示双曲正切激活函数，⊙是对应元素点积，为输入门，为遗忘门，为当前时刻需要输入的信息，为当前时刻的记忆单元，为输出门，是在时刻的输入，1是1时刻隐藏层的输出，，1是1时刻隐藏层的记忆单元，是在时刻隐藏层的输出。LSTM中核心的部分是记忆单元，它自始至终存在于LSTM整个链式系统中，从图中和公式中可以观察的到，每个时刻的记忆单元是由遗忘门、上一时刻的记忆单元1、输入门和新记忆单元计算得到，是一个向量，向量的每个元素均位于[0,1]范围内，和上一时刻的记忆单元1做对应元素的点积，其作用是丢弃和保留上一时刻的记忆单元1中的信息，中元素的值接近1是保留有用信息，接近于0时丢弃无用信息。由输入向量和上一时刻隐藏层的输出1计算得到，也是一个每个元素值介于[0,1]的向量，其作用是筛选当前时刻输入中的信息，元素的值接近1是保留有用信息，接近于0时丢弃无用信息。最后合并输入门和输出门的过滤信息得到当前时刻的记忆单元。由输出门和当前时刻的记忆单元计算得到，其中的计算方式和作用与和相同。2.3本章小结本章首先介绍了藏文字、词、句和文本的构成以及关系，而后详细介绍了循环神经网络中标准RNN和改进的LSTM的基本思路?

【参考文献】：
期刊论文
[1]藏文音节拼写检查的CNN模型[J]. 色差甲,贡保才让,才让加.  中文信息学报. 2019(01)
[2]一种基于向量模型的藏文字拼写检查方法[J]. 才智杰,孙茂松,才让卓玛.  中文信息学报. 2018(09)
[3]现代藏文中词的自动校对方法研究[J]. 刘芳,关白.  电脑知识与技术. 2016(19)
[4]藏文字符的向量模型及构件特征分析[J]. 才智杰,才让卓玛.  中文信息学报. 2016(02)
[5]藏语语音合成单元选择[J]. 才让卓玛,李永明,才智杰.  软件学报. 2015(06)
[6]面向政治新闻领域的中文文本校对方法研究[J]. 张仰森,唐安杰,张泽伟.  中文信息学报. 2014(06)
[7]TSRM藏文拼写检查算法[J]. 珠杰,李天瑞,刘胜久.  中文信息学报. 2014(03)
[8]藏文文本自动校对方法及系统设计[J]. 珠杰,李天瑞,刘胜久.  北京大学学报(自然科学版). 2014(01)
[9]基于分段的藏字校对算法研究[J]. 安见才让.  中文信息学报. 2013(02)
[10]藏文音节规则库的建立与应用分析[J]. 珠杰,欧珠,格桑多吉,扎西加,高红梅.  中文信息学报. 2013(02)

本文编号：3456548

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3456548.html

上一篇：基于多级实体标注与语义增强表示的知识库问答研究
下一篇：基于深度学习的肺结节检测算法研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|