机器翻译的译后优化关键技术研究
发布时间:2021-01-22 17:16
近年来随着机器翻译技术的发展,机器翻译系统已逐渐被应用于各种领域,以帮助人们完成一系列跨语言任务。然而在大多数情况下,机器翻译系统产生的机器译文仍然不能与人工翻译的标准译文相媲美。尤其是当面临一些译文质量要求较高的翻译任务时,在机器翻译系统进行自动翻译的基础上,人们仍需要对机器译文进行校对、修改、润色,来保证译文质量。相对于人工译文优化,机器翻译的自动译后优化是针对一个或多个翻译系统产生的译文做进一步改进,提升其翻译质量,减少人工编辑的代价。但在自动译后优化过程中,可以用于译后优化的用户数据规模通常较小,甚至不存在。面对这样的小数据或零数据的困难情况,如何有效地提高译文的质量是一个机器翻译领域中亟待解决的重要问题。本文的研究主要围绕如何充分利用小数据或者构造伪数据,对已有的通用大规模数据(机器翻译训练数据)进行迁移利用,探索如何合理利用有限的人工翻译历史或者不同的机器翻译结果,进一步提升机器翻译结果的质量、并提供相应的翻译质量估计手段,以达到提高译文质量,降低人工编辑成本的目标。本文的研究主要包含四个方面:(1)研究基于小规模翻译实例的译文一致性优化。在仅有少量人工翻译历史数据场景下,...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:128 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题研究的背景和意义
1.2 机器翻译译后优化的相关工作
1.2.1 基于实例的机器翻译模型改进
1.2.2 机器翻译的自动后编辑模型
1.2.3 多机器翻译系统译文融合
1.2.4 机器翻译的质量估计
1.3 本文的研究内容及组织结构
1.3.1 研究内容
1.3.2 组织结构
第2章 基于小规模翻译实例的译文一致性优化
2.1 引言
2.2 基于小规模翻译实例的译文一致性优化模型
2.2.1 问题的形式化描述
2.2.2 译文一致性优化模型的框架
2.3 相似翻译实例的检索
2.4 基于混淆网络的融合模型
2.4.1 基于增量对齐的混淆网络构建
2.4.2 基于小规模翻译实例的词概率估计
2.5 基于对数线性模型的多特征解码
2.6 实验
2.6.1 实验设置
2.6.2 实验结果
2.6.3 不同检索相似度对译文质量的影响
2.6.4 翻译实例相似度值大小对译文质量的影响
2.6.5 翻译实例数量对译文质量的影响
2.6.6 特征的贡献分析
2.6.7 一致性优化示例及分析
2.7 本章小结
第3章 基于伪反馈的后编辑优化
3.1 引言
3.2 源语言相关的统计后编辑模型
3.3 基于伪反馈的后编辑优化模型
3.3.1 基于伪反馈的后编辑优化模型框架
3.3.2 基于相似实例的译文伪反馈
3.3.3 基于伪反馈的后编辑短语的分类
3.3.4 基于伪反馈的后编辑短语的置信度估计
3.3.5 模型的训练
3.4 实验
3.4.1 实验设置
3.4.2 后编辑模型实验结果
3.4.3 后编辑短语不同分类方法对模型的影响
3.4.4 参数微调前后的性能对比
3.4.5 后编辑短语的置信度特征的贡献
3.4.6 后编辑优化示例及分析
3.5 本章小结
第4章 基于深度学习的多翻译系统译文融合
4.1 引言
4.2 多系统译文优化的深度融合模型
4.2.1 问题的形式化描述
4.2.2 基于深度学习的多系统译文融合框架
4.3 源语言句子及机器译文的编码
4.3.1 基于双向RNN的源语言编码
4.3.2 源语言依赖的机器译文编码
4.4 多系统译文的深度融合解码
4.4.1 基于多注意力的解码
4.4.2 解码的搜索空间
4.5 深度融合模型的训练
4.5.1 编码器的参数学习
4.5.2 解码器的参数学习
4.6 实验
4.6.1 实验设置
4.6.2 实验参数设置
4.6.3 实验结果
4.6.4 多译文融合的示例及分析
4.7 本章小结
第5章 基于伪数据学习的译文质量估计
5.1 引言
5.2 基于神经网络的译文质量估计模型框架
5.2.1 基于LSTM的句子表示
5.2.2 基于句子表示的译文质量估计模型
5.3 基于随机生成伪数据的模型训练方法
5.3.1 模型在随机生成伪数据上的预训练
5.3.2 标准数据上的参数微调
5.4 针对特定任务生成伪数据的模型训练方法
5.5 实验
5.5.1 实验设置
5.5.2 评价标准
5.5.3 基线系统
5.5.4 基于随机生成伪数据的训练方法性能
5.5.5 针对特定任务生成伪数据方法训练模型的性能
5.5.6 译文质量估计示例及分析
5.6 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]基于翻译质量估计的神经网络译文自动后编辑[J]. 谭亦鸣,王明文,李茂西. 北京大学学报(自然科学版). 2018(02)
[2]基于神经网络特征的句子级别译文质量估计[J]. 陈志明,李茂西,王明文. 计算机研究与发展. 2017(08)
[3]神经网络语言模型在统计机器翻译中的应用[J]. 张家俊,宗成庆. 情报工程. 2017(03)
[4]神经机器翻译前沿进展[J]. 刘洋. 计算机研究与发展. 2017(06)
[5]统计机器翻译中大规模特征的深度融合[J]. 刘宇鹏,乔秀明,赵石磊,马春光. 浙江大学学报(工学版). 2017(01)
本文编号:2993612
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:128 页
【学位级别】:博士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题研究的背景和意义
1.2 机器翻译译后优化的相关工作
1.2.1 基于实例的机器翻译模型改进
1.2.2 机器翻译的自动后编辑模型
1.2.3 多机器翻译系统译文融合
1.2.4 机器翻译的质量估计
1.3 本文的研究内容及组织结构
1.3.1 研究内容
1.3.2 组织结构
第2章 基于小规模翻译实例的译文一致性优化
2.1 引言
2.2 基于小规模翻译实例的译文一致性优化模型
2.2.1 问题的形式化描述
2.2.2 译文一致性优化模型的框架
2.3 相似翻译实例的检索
2.4 基于混淆网络的融合模型
2.4.1 基于增量对齐的混淆网络构建
2.4.2 基于小规模翻译实例的词概率估计
2.5 基于对数线性模型的多特征解码
2.6 实验
2.6.1 实验设置
2.6.2 实验结果
2.6.3 不同检索相似度对译文质量的影响
2.6.4 翻译实例相似度值大小对译文质量的影响
2.6.5 翻译实例数量对译文质量的影响
2.6.6 特征的贡献分析
2.6.7 一致性优化示例及分析
2.7 本章小结
第3章 基于伪反馈的后编辑优化
3.1 引言
3.2 源语言相关的统计后编辑模型
3.3 基于伪反馈的后编辑优化模型
3.3.1 基于伪反馈的后编辑优化模型框架
3.3.2 基于相似实例的译文伪反馈
3.3.3 基于伪反馈的后编辑短语的分类
3.3.4 基于伪反馈的后编辑短语的置信度估计
3.3.5 模型的训练
3.4 实验
3.4.1 实验设置
3.4.2 后编辑模型实验结果
3.4.3 后编辑短语不同分类方法对模型的影响
3.4.4 参数微调前后的性能对比
3.4.5 后编辑短语的置信度特征的贡献
3.4.6 后编辑优化示例及分析
3.5 本章小结
第4章 基于深度学习的多翻译系统译文融合
4.1 引言
4.2 多系统译文优化的深度融合模型
4.2.1 问题的形式化描述
4.2.2 基于深度学习的多系统译文融合框架
4.3 源语言句子及机器译文的编码
4.3.1 基于双向RNN的源语言编码
4.3.2 源语言依赖的机器译文编码
4.4 多系统译文的深度融合解码
4.4.1 基于多注意力的解码
4.4.2 解码的搜索空间
4.5 深度融合模型的训练
4.5.1 编码器的参数学习
4.5.2 解码器的参数学习
4.6 实验
4.6.1 实验设置
4.6.2 实验参数设置
4.6.3 实验结果
4.6.4 多译文融合的示例及分析
4.7 本章小结
第5章 基于伪数据学习的译文质量估计
5.1 引言
5.2 基于神经网络的译文质量估计模型框架
5.2.1 基于LSTM的句子表示
5.2.2 基于句子表示的译文质量估计模型
5.3 基于随机生成伪数据的模型训练方法
5.3.1 模型在随机生成伪数据上的预训练
5.3.2 标准数据上的参数微调
5.4 针对特定任务生成伪数据的模型训练方法
5.5 实验
5.5.1 实验设置
5.5.2 评价标准
5.5.3 基线系统
5.5.4 基于随机生成伪数据的训练方法性能
5.5.5 针对特定任务生成伪数据方法训练模型的性能
5.5.6 译文质量估计示例及分析
5.6 本章小结
结论
参考文献
攻读博士学位期间发表的论文及其他成果
致谢
个人简历
【参考文献】:
期刊论文
[1]基于翻译质量估计的神经网络译文自动后编辑[J]. 谭亦鸣,王明文,李茂西. 北京大学学报(自然科学版). 2018(02)
[2]基于神经网络特征的句子级别译文质量估计[J]. 陈志明,李茂西,王明文. 计算机研究与发展. 2017(08)
[3]神经网络语言模型在统计机器翻译中的应用[J]. 张家俊,宗成庆. 情报工程. 2017(03)
[4]神经机器翻译前沿进展[J]. 刘洋. 计算机研究与发展. 2017(06)
[5]统计机器翻译中大规模特征的深度融合[J]. 刘宇鹏,乔秀明,赵石磊,马春光. 浙江大学学报(工学版). 2017(01)
本文编号:2993612
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2993612.html
最近更新
教材专著