基于谷歌神经机器翻译的英汉翻译研究
发布时间:2022-02-12 14:08
近年来,随着深度学习的再度兴起,神经机器翻译NMT逐渐取代了传统的基于短语的统计机器翻译方法,特别是基于Seq2Seq的神经机器翻译模型比较契合端对端的语言翻译模式,获得了业界研究人员的重点关注。然而与传统的统计机器翻译相比,神经机器翻译,特别是基于大规模数据集的神经机器翻译模型仍然存在缺陷,其训练和推理速度缓慢、存在翻译不完全的问题被暴露出来。同时受词汇表规模的限制,神经机器翻译在未登录词和罕见词上同样出现了OOV(out-of-vocabulary)问题。针对以上提到的模型翻译不完全和词汇表OOV问题,本文分别提出了以下解决方案:(1)为了解决神经机器翻译在未登录词和罕见词上的OOV问题,我们将英文文本预处理中常见的词干提取技术和数据压缩算法bpe(Byte pair encoding)相结合,提出了一种不同的基于subword(子词)的词序列分割方法。利用该方法我们将英文文本分割为由子词单元组成的词序列,同时利用unigram将中文文本分割为由汉字组成的字符序列。(2)为了防止解码器出现翻译不完全的现象,本文采用了一种可以提高解码器获取上下文信息能力的改进Attention机制—...
【文章来源】:武汉大学湖北省211工程院校985工程院校教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
MP神经元结构
损失函数曲面图
一种简单的循环神经网络结构
【参考文献】:
期刊论文
[1]机器翻译方法研究与发展综述[J]. 侯强,侯瑞丽. 计算机工程与应用. 2019(10)
[2]知识图谱技术研究综述[J]. 欧艳鹏. 电子世界. 2018(13)
[3]中国翻译服务业研究现状分析[J]. 司显柱,郭小洁. 北京第二外国语学院学报. 2018(03)
[4]结合LSTM和CNN混合架构的深度神经网络语言模型[J]. 王毅,谢娟,成颖. 情报学报. 2018(02)
[5]机器翻译的历史和现状[J]. 冯志伟. 国外自动化. 1984(04)
硕士论文
[1]基于实例的蒙汉机器翻译的研究[D]. 李慧旻.内蒙古工业大学 2016
本文编号:3621861
【文章来源】:武汉大学湖北省211工程院校985工程院校教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
MP神经元结构
损失函数曲面图
一种简单的循环神经网络结构
【参考文献】:
期刊论文
[1]机器翻译方法研究与发展综述[J]. 侯强,侯瑞丽. 计算机工程与应用. 2019(10)
[2]知识图谱技术研究综述[J]. 欧艳鹏. 电子世界. 2018(13)
[3]中国翻译服务业研究现状分析[J]. 司显柱,郭小洁. 北京第二外国语学院学报. 2018(03)
[4]结合LSTM和CNN混合架构的深度神经网络语言模型[J]. 王毅,谢娟,成颖. 情报学报. 2018(02)
[5]机器翻译的历史和现状[J]. 冯志伟. 国外自动化. 1984(04)
硕士论文
[1]基于实例的蒙汉机器翻译的研究[D]. 李慧旻.内蒙古工业大学 2016
本文编号:3621861
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3621861.html
最近更新
教材专著