融合主题与语义依赖的统计机器翻译领域适应性研究
发布时间:2021-02-02 19:38
统计机器翻译以大规模平行语料库为基础,利用计算机较强的计算能力以及机器学习算法,构建统计模型。然而,在面向特定领域翻译任务时,翻译系统的性能往往偏低。原因在于,训练翻译系统的语料通常是由多个领域组成的,翻译模型可以从中学习到多种翻译知识以及语言现象,无法针对特定领域的语义、语言风格做出自适应调整。领域自适应研究的目的在于,建立一种动态调整翻译模型的方法,从而使翻译模型对目标领域的语言特征具备较强的学习和处理能力,借以保证翻译系统在不同领域的平衡可靠的翻译能力。本文集中研究统计机器翻译领域适应性优化方法,具体包括以下三个方面:(1)基于主题信息的领域平行句对选择研究提出一种基于主题信息的领域平行句对选择方法。该方法旨在从大规模平行语料中自动筛选与目标领域主题相关的句对,以扩充特定领域训练数据数据从而提升面向特定领域机器翻译系统的性能。本文所提方法利用双语主题模型将句对表示为主题向量,并在主题和领域之间构建映射,进而更好地估计句对的领域相关性。实验结果显示,利用本文所提方法选择领域句对并训练翻译系统,相比于基准系统,在测试集上BLEU值平均提升1.64个百分点。(2)基于主题模型的调序模型...
【文章来源】:苏州大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 任务定义
1.3 研究意义
1.3.1 科学价值
1.3.2 应用价值
1.4 国内外研究现状
1.4.1 基于训练数据优化的领域适应性研究
1.4.2 基于模型特征优化的领域适应性研究
1.5 主要研究内容
1.6 论文组织结构
第二章 统计机器翻译概述
2.1 语料预处理
2.2 模型训练
2.3 模型权重调节
2.4 翻译解码
2.5 译文质量评价
2.6 本章小结
第三章 基于主题信息的领域平行句对选择研究
3.1 研究动机
3.2 句对领域相关性评价模型
3.2.1 双语主题模型
3.2.2 句子级主题-领域相关性计算
3.2.3 词级主题-领域相关性计算
3.3 实验及结果分析
3.3.1 语料设置
3.3.2 实验设置
3.3.3 实验结果及分析
3.4 本章小结
第四章 基于主题模型的调序模型领域适应性研究
4.1 研究动机
4.2 融合主题信息的调序模型
4.2.1 传统调序模型
4.2.2 估计不同主题下短语对的调序分布
4.2.3 利用测试集主题分布优化调序模型
4.3 实验及结果分析
4.3.1 语料设置
4.3.2 实验设置
4.3.3 实验结果及分析
4.4 本章小结
第五章 领域术语错译识别方法研究
5.1 研究动机
5.2 基于回译的术语错译识别方法
5.2.1 回译译文获取
5.2.2 回译文本与源文本的比较
5.3 实验及结果分析
5.3.1 语料设置
5.3.2 实验设置
5.3.3 实验结果与分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
攻读学位期间公开发表的论文
致谢
【参考文献】:
期刊论文
[1]一种基于分类的平行语料选择方法[J]. 王星,涂兆鹏,谢军,吕雅娟,姚建民. 中文信息学报. 2013(06)
[2]研究领域的主题发展趋势分析方法研究——基于多重共现的视角[J]. 庞弘燊,方曙,杨志刚,郭学武. 情报理论与实践. 2012(08)
[3]基于句对质量和覆盖度的统计机器翻译训练语料选取[J]. 姚树杰,肖桐,朱靖波. 中文信息学报. 2011(02)
本文编号:3015262
【文章来源】:苏州大学江苏省
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
中文摘要
Abstract
第一章 绪论
1.1 研究背景
1.2 任务定义
1.3 研究意义
1.3.1 科学价值
1.3.2 应用价值
1.4 国内外研究现状
1.4.1 基于训练数据优化的领域适应性研究
1.4.2 基于模型特征优化的领域适应性研究
1.5 主要研究内容
1.6 论文组织结构
第二章 统计机器翻译概述
2.1 语料预处理
2.2 模型训练
2.3 模型权重调节
2.4 翻译解码
2.5 译文质量评价
2.6 本章小结
第三章 基于主题信息的领域平行句对选择研究
3.1 研究动机
3.2 句对领域相关性评价模型
3.2.1 双语主题模型
3.2.2 句子级主题-领域相关性计算
3.2.3 词级主题-领域相关性计算
3.3 实验及结果分析
3.3.1 语料设置
3.3.2 实验设置
3.3.3 实验结果及分析
3.4 本章小结
第四章 基于主题模型的调序模型领域适应性研究
4.1 研究动机
4.2 融合主题信息的调序模型
4.2.1 传统调序模型
4.2.2 估计不同主题下短语对的调序分布
4.2.3 利用测试集主题分布优化调序模型
4.3 实验及结果分析
4.3.1 语料设置
4.3.2 实验设置
4.3.3 实验结果及分析
4.4 本章小结
第五章 领域术语错译识别方法研究
5.1 研究动机
5.2 基于回译的术语错译识别方法
5.2.1 回译译文获取
5.2.2 回译文本与源文本的比较
5.3 实验及结果分析
5.3.1 语料设置
5.3.2 实验设置
5.3.3 实验结果与分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 工作展望
参考文献
攻读学位期间公开发表的论文
致谢
【参考文献】:
期刊论文
[1]一种基于分类的平行语料选择方法[J]. 王星,涂兆鹏,谢军,吕雅娟,姚建民. 中文信息学报. 2013(06)
[2]研究领域的主题发展趋势分析方法研究——基于多重共现的视角[J]. 庞弘燊,方曙,杨志刚,郭学武. 情报理论与实践. 2012(08)
[3]基于句对质量和覆盖度的统计机器翻译训练语料选取[J]. 姚树杰,肖桐,朱靖波. 中文信息学报. 2011(02)
本文编号:3015262
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3015262.html