基于深度学习的汉英时态翻译研究
发布时间:2022-02-16 21:48
在日益全球化的今天,机器翻译成为了日常生活中不可或缺的工具。中美两国作为两个世界大国,文化交流甚是频繁,汉英机器翻译的需求因此变得越来越大。随着近几年深度学习的急速发展,神经网络机器翻译相比于传统的机器翻译而言取得了巨大的突破。然而,机器翻译的效果尽管有了极大的提升,能够满足人的基本需求,但对于高要求的翻译任务来说,就目前的机器翻译来说还是远远不够的。其中,机器翻译的时态问题正是目前还未得到完全解决的问题。本文旨在解决汉英机器翻译过程中的时态处理问题。通过结合前人所做的工作,本文提出基于深度学习的树形时态标注算法。时态标注算法建立在马尔科夫树标注模型上。马尔科夫树标注模型是一种可以解决层次性问题的通用机器学习方法。语言具有层次性,从层次角度探索语言本身的含义可以获得更多的信息。本文使用深度信念网络做特征提取器,利用事先构造好的自动标注算法从平行语料库中获得标注数据。标注数据为树形结构,为了得到可供网络使用的数据,本文采用人工规则对标注数据进行编码。网络训练完成后,通过马尔科夫树标注模型对中文句子转换而成的不完全时态树进行时态标注。实验表明,基于深度信念网络的树形时态标注算法较前人的研究...
【文章来源】:厦门大学福建省211工程院校985工程院校教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 机器翻译国内外研究现状及发展历程
1.2.1 基于规则的机器翻译
1.2.2 基于实例的机器翻译
1.2.3 统计机器翻译
1.2.4 神经网络机器翻译
1.3 汉英时态机器翻译研究现状
1.3.1 时态标注
1.3.2 时态机器翻译
1.4 研究内容
1.5 组织结构
第二章 相关研究内容
2.1 词向量
2.2 深度信念网络
2.3 Transformer模型
2.3.1 多头注意力机制
2.3.2 位置编码
2.4 本章小结
第三章 基于马尔科夫树标注模型的汉英时态标注算法
3.1 马尔科夫树标注模型
3.1.1 待标注树的预处理
3.1.2 树标注模型
3.1.3 分解完全标注树
3.1.4 求解最佳标注
3.2 时态树的定义与构造
3.2.1 时态树的定义
3.2.2 时态树的构造
3.3 实验数据准备
3.3.1 自动标注算法
3.3.2 时态树编码
3.4 实验与分析
3.4.1 实验数据
3.4.2 实验描述
3.4.3 实验评估指标
3.4.4 实验结果分析
3.5 本章小结
第四章 基于深度学习的汉英时态翻译系统
4.1 整体思路
4.2 时态的删除与恢复
4.2.1 Stanford依存关系
4.2.2 去时态算法
4.2.3 时态恢复算法
4.3 中英文对齐关系
4.4 数据预处理
4.5 实验与分析
4.5.1 实验描述
4.5.2 实验结果分析
4.6 本章小结
第五章 总结与展望
5.1 本文工作总结
5.2 未来改进方向
5.2.1 特征自动提取
5.2.2 语篇信息
参考文献
致谢
【参考文献】:
期刊论文
[1]基于树形条件随机场的跨语言时态标注[J]. 陈怡疆,徐海波,史晓东,苏畅. 软件学报. 2015(12)
[2]论汉语、英语、法语中时态表达手法的异同[J]. 许兴星. 法制与社会. 2007(01)
[3]一种基于实例的汉英机器翻译策略[J]. 胡国全,陈家骏,戴新宇,尹存燕. 计算机工程与设计. 2005(04)
[4]汉语的时态和时态成分[J]. 陈立民. 语言研究. 2002(03)
[5]基于实例的汉英机器翻译系统研究与实现[J]. 王长胜,刘群. 计算机工程与应用. 2002(08)
本文编号:3628720
【文章来源】:厦门大学福建省211工程院校985工程院校教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景和意义
1.2 机器翻译国内外研究现状及发展历程
1.2.1 基于规则的机器翻译
1.2.2 基于实例的机器翻译
1.2.3 统计机器翻译
1.2.4 神经网络机器翻译
1.3 汉英时态机器翻译研究现状
1.3.1 时态标注
1.3.2 时态机器翻译
1.4 研究内容
1.5 组织结构
第二章 相关研究内容
2.1 词向量
2.2 深度信念网络
2.3 Transformer模型
2.3.1 多头注意力机制
2.3.2 位置编码
2.4 本章小结
第三章 基于马尔科夫树标注模型的汉英时态标注算法
3.1 马尔科夫树标注模型
3.1.1 待标注树的预处理
3.1.2 树标注模型
3.1.3 分解完全标注树
3.1.4 求解最佳标注
3.2 时态树的定义与构造
3.2.1 时态树的定义
3.2.2 时态树的构造
3.3 实验数据准备
3.3.1 自动标注算法
3.3.2 时态树编码
3.4 实验与分析
3.4.1 实验数据
3.4.2 实验描述
3.4.3 实验评估指标
3.4.4 实验结果分析
3.5 本章小结
第四章 基于深度学习的汉英时态翻译系统
4.1 整体思路
4.2 时态的删除与恢复
4.2.1 Stanford依存关系
4.2.2 去时态算法
4.2.3 时态恢复算法
4.3 中英文对齐关系
4.4 数据预处理
4.5 实验与分析
4.5.1 实验描述
4.5.2 实验结果分析
4.6 本章小结
第五章 总结与展望
5.1 本文工作总结
5.2 未来改进方向
5.2.1 特征自动提取
5.2.2 语篇信息
参考文献
致谢
【参考文献】:
期刊论文
[1]基于树形条件随机场的跨语言时态标注[J]. 陈怡疆,徐海波,史晓东,苏畅. 软件学报. 2015(12)
[2]论汉语、英语、法语中时态表达手法的异同[J]. 许兴星. 法制与社会. 2007(01)
[3]一种基于实例的汉英机器翻译策略[J]. 胡国全,陈家骏,戴新宇,尹存燕. 计算机工程与设计. 2005(04)
[4]汉语的时态和时态成分[J]. 陈立民. 语言研究. 2002(03)
[5]基于实例的汉英机器翻译系统研究与实现[J]. 王长胜,刘群. 计算机工程与应用. 2002(08)
本文编号:3628720
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3628720.html