用于统计机器翻译的上下文感知的双语限制递归自编码器
发布时间:2020-09-10 18:35
学习高质量的短语表示一直是统计机器翻译(SMT)中一个研究热点。随着单语短语表示学习研究的成功,许多方法被提出来用于双语短语的表示学习。究其本质,这些方法的出发点都是建立在一个短语及其对应的翻译表示的语义是相同的。所以,在相同的语义空间中,一个短语及其对应的翻译应该尽量接近。然而,现有的工作只考虑了短语内部词之间的组合关系。短语的语义受到其所在上下文的影响,对短语外部的信息的忽略会影响到短评语表示的学习。我们提出了一种融入主题信息的双语短语的表示学习方法。通过将上下文信息融入到双语短语的表示学习中,我们解决了上面提到的问题。具体地,一方面,我们将短语所在文档的主题分布和由递归自编码器学习到的短语表示融合,得到带有上下文信息的短语表示。另一方面,由主题模型得到的词的主题分布反映了词在主题空间的语义,我们将得到的词的主题分布用于约束词和主题表示的学习中。通过这种方式,我们希望具有相似主题分布的词在语义空间中尽量接近,从而进一步提高学习到的短语表示的质量。与之前的双语短语的表示学习方法相比,我们不但考虑了短语所在的上下文,而且建模了词和主题之间的关系来约束模型的学习。在中文到英文机器翻译上的试验结果表明我们的模型显著提高了翻译质量。
【学位单位】:厦门大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1;H085
【部分图文】:
谷歌翻译
图2.3:有道翻译逡逑一个具体的翻译例子。对于中文的词“北”被翻译成英文的“north”,我们可以在两者逡逑之间话一条线。像这样的连线关系,被称为对齐。图对应的对齐结果如图2.5所示。逡逑词的翻译经常是有歧义的。比如我们也可以将中的“北”翻译成英文的“northern逡逑同样的,对于同样一个词被翻译成不同语义的词的情况也很常见,正确的翻译需要逡逑依赖上下文。从图2.5中也可以看出,对齐的词之间的位置可能是不相同的。总体来逡逑说,翻译可以看成是先对词进行翻译,然后对翻译结果进行调序的过程。逡逑However邋,邋the邋sky邋remained邋clear邋under邋the邋strong邋north邋wind邋.逡逑虽然邋北邋风邋呼啸,但天空依然邋十分邋m哄濉e义贤迹玻矗夯鞣肜渝义希龋铮鳎澹觯澹蝈澹澹簦瑁邋澹螅耄澹颍澹恚幔椋睿澹溴澹悖欤澹幔蝈澹酰睿洌澹蝈澹簦瑁邋澹螅簦颍铮睿珏澹睿铮颍簦桢澹鳎椋睿溴澹义纤淙槐狈绾粜ィ炜找廊皇智宄骸e义贤迹玻担捍识云肜渝义隙杂谄叫芯涠裕ǎ
本文编号:2816169
【学位单位】:厦门大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1;H085
【部分图文】:
谷歌翻译
图2.3:有道翻译逡逑一个具体的翻译例子。对于中文的词“北”被翻译成英文的“north”,我们可以在两者逡逑之间话一条线。像这样的连线关系,被称为对齐。图对应的对齐结果如图2.5所示。逡逑词的翻译经常是有歧义的。比如我们也可以将中的“北”翻译成英文的“northern逡逑同样的,对于同样一个词被翻译成不同语义的词的情况也很常见,正确的翻译需要逡逑依赖上下文。从图2.5中也可以看出,对齐的词之间的位置可能是不相同的。总体来逡逑说,翻译可以看成是先对词进行翻译,然后对翻译结果进行调序的过程。逡逑However邋,邋the邋sky邋remained邋clear邋under邋the邋strong邋north邋wind邋.逡逑虽然邋北邋风邋呼啸,但天空依然邋十分邋m哄濉e义贤迹玻矗夯鞣肜渝义希龋铮鳎澹觯澹蝈澹澹簦瑁邋澹螅耄澹颍澹恚幔椋睿澹溴澹悖欤澹幔蝈澹酰睿洌澹蝈澹簦瑁邋澹螅簦颍铮睿珏澹睿铮颍簦桢澹鳎椋睿溴澹义纤淙槐狈绾粜ィ炜找廊皇智宄骸e义贤迹玻担捍识云肜渝义隙杂谄叫芯涠裕ǎ
本文编号:2816169
本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/2816169.html