基于数据扩充的翻译记忆库与神经机器翻译融合方法
发布时间:2021-11-24 01:04
神经机器翻译是目前机器翻译领域的主流方法,而翻译记忆是一种帮助专业翻译人员避免重复翻译的工具,其保留之前完成的翻译句对并存储在翻译记忆库中,进而在之后的翻译过程中通过检索去重用这些翻译。该文基于数据扩充提出两种将翻译记忆与神经机器翻译相结合的方法:(1)直接拼接翻译记忆在源语句后面;(2)通过标签向量拼接翻译记忆。该文在中英与英德数据集上进行了实验,实验表明,该方法可以使翻译性能获得显著提升。
【文章来源】:中文信息学报. 2020,34(05)北大核心CSCD
【文章页数】:8 页
【部分图文】:
Transformer模型结构
通过这种方式,一方面扩充了训练语料的规模;另一方面,翻译记忆作为额外的信息,也传入了翻译的解码中,模型在解码时可以选择目标端翻译记忆中有用的信息并加以使用。3.2 通过标签向量拼接翻译记忆
上述方法在拼接了目标端翻译记忆后,仅仅通过一个分隔符来划分界限,对于模型而言,加大了区分源语句与翻译记忆的难度。基于这种考虑,我们额外引入了一个标签向量,用来区别输入中的源语句与目标端翻译记忆。图3给出了通过标签向量拼接翻译记忆的示例。本文采用类似位置编码的方式,在得到词嵌入之后,除了添加位置信息外,还添加了一个标签向量,该标签向量用来表示当前的输入属于源语句还是目标端翻译记忆,具体的计算如式(18)所示。
【参考文献】:
期刊论文
[1]机器翻译研究新进展[J]. 刘群. 当代语言学. 2009(02)
本文编号:3514981
【文章来源】:中文信息学报. 2020,34(05)北大核心CSCD
【文章页数】:8 页
【部分图文】:
Transformer模型结构
通过这种方式,一方面扩充了训练语料的规模;另一方面,翻译记忆作为额外的信息,也传入了翻译的解码中,模型在解码时可以选择目标端翻译记忆中有用的信息并加以使用。3.2 通过标签向量拼接翻译记忆
上述方法在拼接了目标端翻译记忆后,仅仅通过一个分隔符来划分界限,对于模型而言,加大了区分源语句与翻译记忆的难度。基于这种考虑,我们额外引入了一个标签向量,用来区别输入中的源语句与目标端翻译记忆。图3给出了通过标签向量拼接翻译记忆的示例。本文采用类似位置编码的方式,在得到词嵌入之后,除了添加位置信息外,还添加了一个标签向量,该标签向量用来表示当前的输入属于源语句还是目标端翻译记忆,具体的计算如式(18)所示。
【参考文献】:
期刊论文
[1]机器翻译研究新进展[J]. 刘群. 当代语言学. 2009(02)
本文编号:3514981
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3514981.html