基于LSTM神经网络的蒙汉机器翻译的研究
发布时间:2020-12-27 18:05
信息技术的发展和语言交流日趋频繁,机器翻译已逐渐成为不同语言间传播信息的主要途径,而机器翻译方法的好坏也影响着翻译质量的优劣。在蒙汉机器翻译中,由于词语识别困难、语序差异较大和构词结构复杂等问题导致传统的机器翻译方法语义表述不够理想,译文质量受到制约。相较传统翻译方法,以长短时记忆神经网络(Long Short Term Memory,LSTM)为基础的神经机器翻译模型以其特有的编码-解码结构和语义挖掘特性逐渐在机器翻译中崭露头角。然而目前结合LSTM的蒙汉神经机器翻译研究较少,因此论文主要对蒙汉双语语料预处理及蒙古语词素编码的LSTM模型构建和优化进行研究。在语料预处理阶段,针对传统蒙汉机器翻译词语匹配不高的问题,本文给出一种GRU-CRF混合算法来进行分词模块构建。通过门控循环神经网络(Gated Recurrent Unit,GRU)和条件随机场(Conditional Random Field,CRF)相结合的方式来对待标注序列进行语义分析和标注,达到符合语义关系的分词效果,克服了HMM和CRF分词模型上下文考虑不充分的问题。同时为了获取语义的关联性,利用分布式表示方式对切分的...
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3-5分词语料
其中 K 表示词典规模,以单词在词典中出现的位置处赋值均赋值 0 的方式来表示单词对应的词向量,也叫 one-hot 形式。但是式的单词进行关联度计算时其正交计算为 0,直接导致单词无法与其联,无法获取语料中的语义关系,从而导致数据稀疏的问题。并且,one-hot词向量进行关联性计算时还会带来大量的无效计算,即0 0的用高维词向量进行正交计算给计算机带来的计算压力是非常大的。 one-hot 形式不同,以分布式表示方式(Distributional Representation)用点阵形式进行存储,将矩阵的维度进行压缩并固定,使存储词向量小于词典维度,再融合词之间的连接权重可以有效的对词与词之间的关系进行表达,在神经机器翻译系统中的作用是非常重要的,在向量空的语义距离通常用余弦距离或欧式距离进行衡量,且不同或同种语言的语义距离相比较不相似词的距离近。这是分布式表示方式的一个优机器翻译问题中,这种空间上近距离的相似词能够有效地处理未登录,图 3-6 表示的是词向量的余弦空间表示图。
第四章 基于词素编码的 LSTM 蒙汉翻译研究名词形式 ,汉语意为 干活 。体现了蒙古语词的单一词干位置提前的特点本文采用蒙古语的词素向量形式作为编码器的输入,扩大语义范围,当出现未登录词时,根据相似词向量空间距离近的特点有效进行同义词替换。词素切分以词典为基础,在进行切分时首先需要利用词频统计工具OpenNMT.dict 生成蒙古语语料的词典,具体如图 4-1 所示。
本文编号:2942223
【文章来源】:内蒙古工业大学内蒙古自治区
【文章页数】:70 页
【学位级别】:硕士
【部分图文】:
图3-5分词语料
其中 K 表示词典规模,以单词在词典中出现的位置处赋值均赋值 0 的方式来表示单词对应的词向量,也叫 one-hot 形式。但是式的单词进行关联度计算时其正交计算为 0,直接导致单词无法与其联,无法获取语料中的语义关系,从而导致数据稀疏的问题。并且,one-hot词向量进行关联性计算时还会带来大量的无效计算,即0 0的用高维词向量进行正交计算给计算机带来的计算压力是非常大的。 one-hot 形式不同,以分布式表示方式(Distributional Representation)用点阵形式进行存储,将矩阵的维度进行压缩并固定,使存储词向量小于词典维度,再融合词之间的连接权重可以有效的对词与词之间的关系进行表达,在神经机器翻译系统中的作用是非常重要的,在向量空的语义距离通常用余弦距离或欧式距离进行衡量,且不同或同种语言的语义距离相比较不相似词的距离近。这是分布式表示方式的一个优机器翻译问题中,这种空间上近距离的相似词能够有效地处理未登录,图 3-6 表示的是词向量的余弦空间表示图。
第四章 基于词素编码的 LSTM 蒙汉翻译研究名词形式 ,汉语意为 干活 。体现了蒙古语词的单一词干位置提前的特点本文采用蒙古语的词素向量形式作为编码器的输入,扩大语义范围,当出现未登录词时,根据相似词向量空间距离近的特点有效进行同义词替换。词素切分以词典为基础,在进行切分时首先需要利用词频统计工具OpenNMT.dict 生成蒙古语语料的词典,具体如图 4-1 所示。
本文编号:2942223
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2942223.html