结合语义向量的双向机器翻译模型及评价
发布时间:2021-11-16 12:52
机器翻译的定义是通过计算模型将一种自然语言的书写形式翻译成另一种自然语言的书写形式,近年来由于神经网络计算能力的逐步增强,可以利用神经网络进行机器翻译,词能够被映射到维度更高的向量空间中,利用大规模的神经网络将源语言映射到目标语言,神经网络翻译系统在大部分语义上已经超过了传统基于统计的方法。虽然结果有了很大的提高,但整体系统仍受制于训练数据的规模,对平行语料的需求量很大且平行语料标注起来困难较大。因此本文提出的基于语义向量的神经网络机器翻译模型能够利用现有的平行语料,不需要额外其他的平行语料,通过结合资源易获取的数据集构建在目标语言上和源语言上的语义向量,从而提升了机器翻译的性能。另外由于深度学习网络巨大的参数规模,在训练过程中,很多操作和表示都很难解释,也包括在神经网络内部训练中参数动态变化的原因和方式都很难解释。在实验结果分析中,本文利用了一个新的视角去分析训练过程。本文第一部分是构建质量较高的语义向量。本文比较了不同结构对句子进行编码的效果,采用最好的结构对句子进行编码。另外在自然语言理解任务上进行在跨语言的实验,作为语义向量的基线模型,再将编码器的性能通过多任务学习的方式进一步...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Transformer结构图
λ|xcy|2+|xyc|2(2-11)在NLI英语的数据集上训练英语编码器是,采用最小化负似然对数的目标函数训练目标编码器。其中,在进行拟合源语言编码器和目标语言编码器时,考虑增大负样例句子xc,yc间的距离,λ控制的是损失函数中惩罚负样例距离的参数。在最开始实验时只比较两个向量间的L2距离,用公式表达是dist(x,y)=||x-y||。目标是为了让两组语义相同的向量间距离尽可能的小,让随机抽取出的负样例间的距离尽可能的大。在这种实验设置下,会根据平行语料来对齐源语言和目标语言的编码器。具体的句子级别跨语言语义向量训练流程图如图2-1所示:图2-1跨语言句子语义向量流程图首先在有充足训练数据的语料上,训练NLI的模型,作为指导模型,比如在有充足训练数据的英语上,训练出一个准确率达到90%以上的模型,采用的
的标准解决方案。标签解码是命名实体识别模型的最后一步。在得到单词的矢量表示并将其转换为上下文敏感表示后,标签解码模块将其作为输入,并为整个模型的输入预测相应的标签序列。利用这种结构,本文可以将命名实体识别模型看作一个多类型分类问题。在这个阶段,每个词的标签都是根据输入的上下文语义表示独立地预测的,而不是依赖于相邻的词。事实上,最有效的条件随机场是概率图模型,在基于特征的监测方法中得到了广泛的应用。近年来,许多深度学习方法也将条件随机场作为最终的标记结构。命名实体识别任务的流程图如图2-2所示:图2-2命名实体识别任务流程图这里也使用双向长短时记忆神经网络加上条件随机场的模型作为本文识别命名实体的模型。本文在自然语言理解的任务上和在命名实体识别的任务上共享编码器的参数,在一轮训练中,本文先在充足的英语训练数据上对这两个任务进行训练,损失经过反向传播后调整编码器的参数。在下一轮训练中,本文
【参考文献】:
期刊论文
[1]基于半监督学习的小语种机器翻译算法[J]. 陆雯洁,谭儒昕,刘功申,孙环荣. 厦门大学学报(自然科学版). 2019(02)
[2]深度学习研究进展[J]. 郭丽丽,丁世飞. 计算机科学. 2015(05)
[3]使用源语言复述知识改善统计机器翻译性能[J]. 苏晨,张玉洁,郭振,徐金安. 北京大学学报(自然科学版). 2015(02)
[4]文化信息流动与语言模因传播研究[J]. 刘琳琪. 兰州大学学报(社会科学版). 2014(06)
[5]百度翻译和有道翻译API的封装与利用[J]. 黄皓. 电脑编程技巧与维护. 2014(16)
本文编号:3498928
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
Transformer结构图
λ|xcy|2+|xyc|2(2-11)在NLI英语的数据集上训练英语编码器是,采用最小化负似然对数的目标函数训练目标编码器。其中,在进行拟合源语言编码器和目标语言编码器时,考虑增大负样例句子xc,yc间的距离,λ控制的是损失函数中惩罚负样例距离的参数。在最开始实验时只比较两个向量间的L2距离,用公式表达是dist(x,y)=||x-y||。目标是为了让两组语义相同的向量间距离尽可能的小,让随机抽取出的负样例间的距离尽可能的大。在这种实验设置下,会根据平行语料来对齐源语言和目标语言的编码器。具体的句子级别跨语言语义向量训练流程图如图2-1所示:图2-1跨语言句子语义向量流程图首先在有充足训练数据的语料上,训练NLI的模型,作为指导模型,比如在有充足训练数据的英语上,训练出一个准确率达到90%以上的模型,采用的
的标准解决方案。标签解码是命名实体识别模型的最后一步。在得到单词的矢量表示并将其转换为上下文敏感表示后,标签解码模块将其作为输入,并为整个模型的输入预测相应的标签序列。利用这种结构,本文可以将命名实体识别模型看作一个多类型分类问题。在这个阶段,每个词的标签都是根据输入的上下文语义表示独立地预测的,而不是依赖于相邻的词。事实上,最有效的条件随机场是概率图模型,在基于特征的监测方法中得到了广泛的应用。近年来,许多深度学习方法也将条件随机场作为最终的标记结构。命名实体识别任务的流程图如图2-2所示:图2-2命名实体识别任务流程图这里也使用双向长短时记忆神经网络加上条件随机场的模型作为本文识别命名实体的模型。本文在自然语言理解的任务上和在命名实体识别的任务上共享编码器的参数,在一轮训练中,本文先在充足的英语训练数据上对这两个任务进行训练,损失经过反向传播后调整编码器的参数。在下一轮训练中,本文
【参考文献】:
期刊论文
[1]基于半监督学习的小语种机器翻译算法[J]. 陆雯洁,谭儒昕,刘功申,孙环荣. 厦门大学学报(自然科学版). 2019(02)
[2]深度学习研究进展[J]. 郭丽丽,丁世飞. 计算机科学. 2015(05)
[3]使用源语言复述知识改善统计机器翻译性能[J]. 苏晨,张玉洁,郭振,徐金安. 北京大学学报(自然科学版). 2015(02)
[4]文化信息流动与语言模因传播研究[J]. 刘琳琪. 兰州大学学报(社会科学版). 2014(06)
[5]百度翻译和有道翻译API的封装与利用[J]. 黄皓. 电脑编程技巧与维护. 2014(16)
本文编号:3498928
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3498928.html
最近更新
教材专著