基于LSTM的藏文词拼写检查技术研究
发布时间:2021-10-25 03:22
文本的自动校对是自然语言处理的基础工作之一,旨在用计算机对文本中存在的错误进行分析和改正的工作,目的是让计算机能够自动的将有错误的文本恢复为正确文本。拼写检查是利用计算机快速的检测文本中的错误,能够提高文本校对的效率,是文本校对中采用的一种首选技术。英、汉文本的拼写检查技术已取得了丰硕的成果,并广泛地应用于各种字处理软件。与英、汉文本的拼写检查技术相比,藏文文本的拼写检查技术还处于起步阶段,其研究在藏语语料库建设、语音识别、文字识别等诸多方面具有广泛的应用价值。本文借鉴英、汉文本的拼写检查技术,通过分析藏文文本中的错误类型和藏文拼写检查研究现状,提出了基于TCLSTM(Tibetan Characters LSTM,TCLSTM)语言模型的藏文词拼写检查方法。主要内容包括:(1)建立了实验语料藏语目前没有统一的语言模型训练和测试实验语料,因此我们利用爬虫技术从藏文网站中获取了大小为186MB,包含15147315个音节的藏文文本语料,并对其进行了预处理,得到了较高质量的实验语料。(2)构建TCLSTM语言模型藏文是字的序...
【文章来源】:青海师范大学青海省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
循环神经网络模型结构图
士学位论文10层到输出层的权重,每个时刻、V和W都是相等的(权重共享)。隐藏层的状态通过非线性变换得到模型最终输出(预测值){11+1},其维度根据任务不同而不同,比如对于一个二分类任务来说其维度就等于2。每个时刻的标签(目标值)向量为{11+1},一般用one-hot向量表示,其维度与{11+1}相同。{11+1}是每个时刻的预测值{11+1}和目标值之间的误差函数,来衡量预测值和目标值之间的误差,模型训练是要最小化两者之间的误差。循环神经网络每个时刻隐藏层内部的计算流程如图2-4所示:图2-4标准RNN内部结构图其对应的数学公式如下:=(+1+)=(+)(2-1)(2-2)其中和为激活函数,从图中可以看到一般采用的是tanh激活函数。g根据任务的不同选取的激活函数也不同,对于二分类的任务来说可以选取sigmod激活函数,因其值在0和1之间,可设置一个阈值,如果通过sigmod激活函数得到的值小于阈值分为一类,反之分为另一类。对于多分类任务来说则选用Softmax函数,其作用是将+得到的值做概率归一化处理,处理后得到的值中哪个概率最大就分为该类。RNN用随时间的反向传播(BackPropagationTroughTime,BPTT)算法训练,序列长度过长时,会出现梯度消失和梯度爆炸问题[48]。对于梯度爆炸可以采取梯度截取的方法解决,但梯度消失问题很难解决,因而RNN会出现无法捕获长远距离的依赖关系。2.2.2LSTM1997年由Hochreiter&Schmidhuber在RNN的基础上提出长短期记忆网络(LongShort-TermMemory,LSTM)[49],用来解决RNN无法捕获长距离依赖的问题,从而使RNN真正有效的利用序列数据的长远距离信息。LSTM在RNN隐藏层神经元内部加入输入门、遗忘门、输出门及记忆单元来控制不同时
基于LSTM的藏文词拼写检查技术研究11态和输出,其内部结构如图2-5所示。图2-5LSTM神经元内部结构图LSTM神经元的输入和输出可以通过公式(2-3)~(2-8)表示:=([1,]+)=([1,]+)=([1,]+)=⊙1+⊙=([1,]+)=⊙tanh()(2-3)(2-4)(2-5)(2-6)(2-7)(2-8)其中,σ表示神经网络中的sigmod激活函数,表示双曲正切激活函数,⊙是对应元素点积,为输入门,为遗忘门,为当前时刻需要输入的信息,为当前时刻的记忆单元,为输出门,是在时刻的输入,1是1时刻隐藏层的输出,,1是1时刻隐藏层的记忆单元,是在时刻隐藏层的输出。LSTM中核心的部分是记忆单元,它自始至终存在于LSTM整个链式系统中,从图中和公式中可以观察的到,每个时刻的记忆单元是由遗忘门、上一时刻的记忆单元1、输入门和新记忆单元计算得到,是一个向量,向量的每个元素均位于[0,1]范围内,和上一时刻的记忆单元1做对应元素的点积,其作用是丢弃和保留上一时刻的记忆单元1中的信息,中元素的值接近1是保留有用信息,接近于0时丢弃无用信息。由输入向量和上一时刻隐藏层的输出1计算得到,也是一个每个元素值介于[0,1]的向量,其作用是筛选当前时刻输入中的信息,元素的值接近1是保留有用信息,接近于0时丢弃无用信息。最后合并输入门和输出门的过滤信息得到当前时刻的记忆单元。由输出门和当前时刻的记忆单元计算得到,其中的计算方式和作用与和相同。2.3本章小结本章首先介绍了藏文字、词、句和文本的构成以及关系,而后详细介绍了循环神经网络中标准RNN和改进的LSTM的基本思路?
【参考文献】:
期刊论文
[1]藏文音节拼写检查的CNN模型[J]. 色差甲,贡保才让,才让加. 中文信息学报. 2019(01)
[2]一种基于向量模型的藏文字拼写检查方法[J]. 才智杰,孙茂松,才让卓玛. 中文信息学报. 2018(09)
[3]现代藏文中词的自动校对方法研究[J]. 刘芳,关白. 电脑知识与技术. 2016(19)
[4]藏文字符的向量模型及构件特征分析[J]. 才智杰,才让卓玛. 中文信息学报. 2016(02)
[5]藏语语音合成单元选择[J]. 才让卓玛,李永明,才智杰. 软件学报. 2015(06)
[6]面向政治新闻领域的中文文本校对方法研究[J]. 张仰森,唐安杰,张泽伟. 中文信息学报. 2014(06)
[7]TSRM藏文拼写检查算法[J]. 珠杰,李天瑞,刘胜久. 中文信息学报. 2014(03)
[8]藏文文本自动校对方法及系统设计[J]. 珠杰,李天瑞,刘胜久. 北京大学学报(自然科学版). 2014(01)
[9]基于分段的藏字校对算法研究[J]. 安见才让. 中文信息学报. 2013(02)
[10]藏文音节规则库的建立与应用分析[J]. 珠杰,欧珠,格桑多吉,扎西加,高红梅. 中文信息学报. 2013(02)
本文编号:3456548
【文章来源】:青海师范大学青海省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
循环神经网络模型结构图
士学位论文10层到输出层的权重,每个时刻、V和W都是相等的(权重共享)。隐藏层的状态通过非线性变换得到模型最终输出(预测值){11+1},其维度根据任务不同而不同,比如对于一个二分类任务来说其维度就等于2。每个时刻的标签(目标值)向量为{11+1},一般用one-hot向量表示,其维度与{11+1}相同。{11+1}是每个时刻的预测值{11+1}和目标值之间的误差函数,来衡量预测值和目标值之间的误差,模型训练是要最小化两者之间的误差。循环神经网络每个时刻隐藏层内部的计算流程如图2-4所示:图2-4标准RNN内部结构图其对应的数学公式如下:=(+1+)=(+)(2-1)(2-2)其中和为激活函数,从图中可以看到一般采用的是tanh激活函数。g根据任务的不同选取的激活函数也不同,对于二分类的任务来说可以选取sigmod激活函数,因其值在0和1之间,可设置一个阈值,如果通过sigmod激活函数得到的值小于阈值分为一类,反之分为另一类。对于多分类任务来说则选用Softmax函数,其作用是将+得到的值做概率归一化处理,处理后得到的值中哪个概率最大就分为该类。RNN用随时间的反向传播(BackPropagationTroughTime,BPTT)算法训练,序列长度过长时,会出现梯度消失和梯度爆炸问题[48]。对于梯度爆炸可以采取梯度截取的方法解决,但梯度消失问题很难解决,因而RNN会出现无法捕获长远距离的依赖关系。2.2.2LSTM1997年由Hochreiter&Schmidhuber在RNN的基础上提出长短期记忆网络(LongShort-TermMemory,LSTM)[49],用来解决RNN无法捕获长距离依赖的问题,从而使RNN真正有效的利用序列数据的长远距离信息。LSTM在RNN隐藏层神经元内部加入输入门、遗忘门、输出门及记忆单元来控制不同时
基于LSTM的藏文词拼写检查技术研究11态和输出,其内部结构如图2-5所示。图2-5LSTM神经元内部结构图LSTM神经元的输入和输出可以通过公式(2-3)~(2-8)表示:=([1,]+)=([1,]+)=([1,]+)=⊙1+⊙=([1,]+)=⊙tanh()(2-3)(2-4)(2-5)(2-6)(2-7)(2-8)其中,σ表示神经网络中的sigmod激活函数,表示双曲正切激活函数,⊙是对应元素点积,为输入门,为遗忘门,为当前时刻需要输入的信息,为当前时刻的记忆单元,为输出门,是在时刻的输入,1是1时刻隐藏层的输出,,1是1时刻隐藏层的记忆单元,是在时刻隐藏层的输出。LSTM中核心的部分是记忆单元,它自始至终存在于LSTM整个链式系统中,从图中和公式中可以观察的到,每个时刻的记忆单元是由遗忘门、上一时刻的记忆单元1、输入门和新记忆单元计算得到,是一个向量,向量的每个元素均位于[0,1]范围内,和上一时刻的记忆单元1做对应元素的点积,其作用是丢弃和保留上一时刻的记忆单元1中的信息,中元素的值接近1是保留有用信息,接近于0时丢弃无用信息。由输入向量和上一时刻隐藏层的输出1计算得到,也是一个每个元素值介于[0,1]的向量,其作用是筛选当前时刻输入中的信息,元素的值接近1是保留有用信息,接近于0时丢弃无用信息。最后合并输入门和输出门的过滤信息得到当前时刻的记忆单元。由输出门和当前时刻的记忆单元计算得到,其中的计算方式和作用与和相同。2.3本章小结本章首先介绍了藏文字、词、句和文本的构成以及关系,而后详细介绍了循环神经网络中标准RNN和改进的LSTM的基本思路?
【参考文献】:
期刊论文
[1]藏文音节拼写检查的CNN模型[J]. 色差甲,贡保才让,才让加. 中文信息学报. 2019(01)
[2]一种基于向量模型的藏文字拼写检查方法[J]. 才智杰,孙茂松,才让卓玛. 中文信息学报. 2018(09)
[3]现代藏文中词的自动校对方法研究[J]. 刘芳,关白. 电脑知识与技术. 2016(19)
[4]藏文字符的向量模型及构件特征分析[J]. 才智杰,才让卓玛. 中文信息学报. 2016(02)
[5]藏语语音合成单元选择[J]. 才让卓玛,李永明,才智杰. 软件学报. 2015(06)
[6]面向政治新闻领域的中文文本校对方法研究[J]. 张仰森,唐安杰,张泽伟. 中文信息学报. 2014(06)
[7]TSRM藏文拼写检查算法[J]. 珠杰,李天瑞,刘胜久. 中文信息学报. 2014(03)
[8]藏文文本自动校对方法及系统设计[J]. 珠杰,李天瑞,刘胜久. 北京大学学报(自然科学版). 2014(01)
[9]基于分段的藏字校对算法研究[J]. 安见才让. 中文信息学报. 2013(02)
[10]藏文音节规则库的建立与应用分析[J]. 珠杰,欧珠,格桑多吉,扎西加,高红梅. 中文信息学报. 2013(02)
本文编号:3456548
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3456548.html
最近更新
教材专著