基于子词切分的句子级别神经机器译文质量估计方法
发布时间:2022-02-24 10:01
在国际交流日趋频繁的当今时代,机器翻译减轻了不同国家和地区的人们在信息交流中因为语言差异带来的障碍。机器翻译质量估计是在不借助人工参考译文的情况下自动估计机器译文的翻译质量,它在机器翻译后编辑和辅助机器翻译中发挥着重要的作用。首先,本文针对句子级别的译文质量估计任务提出了一种联合神经网络模型。传统的神经译文质量估计模型由两部分组成:一部分是基于双向循环神经网络的编码器-解码器子模型,该部分可认为是特征提取模块;另一部分是计算译文质量估计得分的循环神经网络子模型,该部分可认为是有监督的回归模块。我们将这两部分子模型联合成单一的端到端的神经网络模型,该模型中编码器-解码器子模型使用大规模的双语平行语料进行预训练,而整体模型参数使用译文质量估计任务语料进行统一训练。其次,我们提出了融合不同子词切分方法的神经译文质量估计方法。为了克服词表过大给神经机器翻译模型构建和训练造成的不利影响,近年来,学者们提出了BPE和SentencePiece子词切分方法,它们极大地提升了机器翻译质量,但是,还没有研究工作调查不同子词切分方法对神经译文质量估计的影响。在深入分析BPE和SentencePiece子词...
【文章来源】:江西师范大学江西省
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 引言
1.1 研究背景及意义
1.2 相关工作研究现状
1.2.1 传统的质量估计方法—QuEst框架
1.2.2 利用神经网络提取特征的方法—“神经感知”质量估计方法
1.2.3 利用神经网络的方法解决QE问题—“纯神经网络”质量估计方法
1.2.4 WMT质量估计评测
1.3 本文主要工作及内容
1.4 文章组织结构
2 机器翻译质量估计的联合模型构建
2.1 循环神经网络简介
2.2 UNQE模型架构
2.2.1 基于双向RNN的编码器—解码器模型
2.2.2 计算QE得分的RNN模型
2.3 UNQE模型训练
2.3.1 预训练基于双向RNN的编码器—解码器模型
2.3.2 联合训练UNQE模型
2.4 本章小结
3 子词粒度切分算法在质量估计数据预处理中的应用
3.1 机器翻译质量估计常规预处理方法
3.2 子词粒度切分算法
3.2.1 BPE算法
3.2.2 SentencePiece算法
3.2.3 BPE算法与SentencePiece算法的比较
3.3 本章小结
4 实验与分析
4.1 实验数据
4.2 实验环境
4.3 实验结果
4.3.1 评价指标
4.3.2 UNQE模型在WMT17 句子级别质量估计任务中的结果
4.3.3 多实例集成方法对实验结果的影响
4.3.4 使用logistic sigmoid方法对计算质量估计得分的影响
4.3.5 UNQE模型在WMT18 句子级别质量估计任务中的结果
4.3.6 数据子词化对实验结果的影响
4.4 本章小结
5 总结与展望
5.1 本文总结
5.2 未来展望
参考文献
致谢
在读期间公开发表论文(著)及科研情况
【参考文献】:
期刊论文
[1]基于神经网络特征的句子级别译文质量估计[J]. 陈志明,李茂西,王明文. 计算机研究与发展. 2017(08)
本文编号:3642497
【文章来源】:江西师范大学江西省
【文章页数】:53 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
1 引言
1.1 研究背景及意义
1.2 相关工作研究现状
1.2.1 传统的质量估计方法—QuEst框架
1.2.2 利用神经网络提取特征的方法—“神经感知”质量估计方法
1.2.3 利用神经网络的方法解决QE问题—“纯神经网络”质量估计方法
1.2.4 WMT质量估计评测
1.3 本文主要工作及内容
1.4 文章组织结构
2 机器翻译质量估计的联合模型构建
2.1 循环神经网络简介
2.2 UNQE模型架构
2.2.1 基于双向RNN的编码器—解码器模型
2.2.2 计算QE得分的RNN模型
2.3 UNQE模型训练
2.3.1 预训练基于双向RNN的编码器—解码器模型
2.3.2 联合训练UNQE模型
2.4 本章小结
3 子词粒度切分算法在质量估计数据预处理中的应用
3.1 机器翻译质量估计常规预处理方法
3.2 子词粒度切分算法
3.2.1 BPE算法
3.2.2 SentencePiece算法
3.2.3 BPE算法与SentencePiece算法的比较
3.3 本章小结
4 实验与分析
4.1 实验数据
4.2 实验环境
4.3 实验结果
4.3.1 评价指标
4.3.2 UNQE模型在WMT17 句子级别质量估计任务中的结果
4.3.3 多实例集成方法对实验结果的影响
4.3.4 使用logistic sigmoid方法对计算质量估计得分的影响
4.3.5 UNQE模型在WMT18 句子级别质量估计任务中的结果
4.3.6 数据子词化对实验结果的影响
4.4 本章小结
5 总结与展望
5.1 本文总结
5.2 未来展望
参考文献
致谢
在读期间公开发表论文(著)及科研情况
【参考文献】:
期刊论文
[1]基于神经网络特征的句子级别译文质量估计[J]. 陈志明,李茂西,王明文. 计算机研究与发展. 2017(08)
本文编号:3642497
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3642497.html