基于深度学习的双语长句分割方法研究
发布时间:2023-05-20 12:46
机器翻译是自然语言处理重要的研究领域。目前神经机器翻译的性能依赖于高质量大规模的平行语料库。受计算资源、训练时间以及模型框架限制,模型训练只能利用长度适中的平行句对,过长的句对会被丢弃,造成资源浪费。因此,研究如何把双语长句分割成为有效的句对,具有重要的理论意义和实用价值。传统的双语句对分割方法包括基于规则、基于统计、规则和统计结合的方法等。但是此类方法存在对语种具有依存性、分割精度不高等缺点。为了解决此问题,本文重点研究基于深度学习的双语平行语料库的长句对的分割方法,从而提高语料的利用率,提高翻译系统的翻译精度和翻译质量。本文的主要工作和创新点包括:(1)提出了一种基于深度学习的双语长句分割方法,通过结合单语分割模型和句子对齐模型召回长句对中高质量的短句对。实验结果证明,该双语分割方法的分割精度得到了有效提升,并可提升机器翻译的性能。(2)提出了融合依存句法结构的单语长句分割模型,通过结合基于神经网络的序列标注方法和依存句法结构提高单语分割的精度。实验结果证明,相较于传统方法,本文提出方法在中文单语长句分割任务上F1值提升了 2.06个百分点,在英文长句分割任务上F1值提升了 0.9...
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景及意义
1.2 研究现状
1.3 论文研究内容
2 相关理论与技术
2.1 基于词对齐模型的双语分割
2.1.1 IBM模型
2.1.2 词对齐分割方法
2.2 汉语长句分割方法
2.2.1 基于统计的分割方法
2.2.2 基于分类器的分割方法
2.3 英语长句分割方法
2.3.1 基于规则的分割方法
2.3.2 基于翻译的分割方法
2.3.3 基于多策略的分割方法
2.4 双语对齐方法
2.4.1 基于长度的对齐方法
2.4.2 基于双语词典的对齐方法
3.4.3 基于深度学习的对齐方法
2.5 评价方法
2.6 本章小结
3 结合分割模型和对齐模型的双语分割方法
3.1 双语长句分割方法
3.1.1 问题分析及解决思路
3.1.2 模型框架
3.2 融合依存句法结构信息的长句分割模型
3.2.1 问题分析及解决思路
3.2.2 BI-LSTM+CRF架构
3.2.3 依存句法介绍
3.2.4 模型框架
3.3 基于预训练语言模型的双语对齐模型
3.3.1 问题分析及解决思路
3.3.2 预训练语言模型
3.3.3 模型框架
3.4 本章小结
4 实验及分析
4.1 中文长句分割实验
4.1.1 数据获得
4.1.2 实验设置
4.1.3 实验结果
4.1.4 结果分析
4.2 英文长句分割实验
4.2.1 数据获得
4.2.2 数据处理
4.2.3 实验结果
4.2.4 结果分析
4.3 中英双语对齐实验
4.3.1 实验数据
4.3.2 实验结果
4.3.3 结果分析
4.4 双语分割方法在中英机器翻译上的实验
4.4.1 实验数据
4.4.2 实验设置
4.4.3 实验评价方法
4.4.4 实验结果及分析
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
作者简历及攻读硕士/博士学位期间取得的研究成果
学位论文数据集
本文编号:3821141
【文章页数】:74 页
【学位级别】:硕士
【文章目录】:
致谢
摘要
ABSTRACT
1 引言
1.1 研究背景及意义
1.2 研究现状
1.3 论文研究内容
2 相关理论与技术
2.1 基于词对齐模型的双语分割
2.1.1 IBM模型
2.1.2 词对齐分割方法
2.2 汉语长句分割方法
2.2.1 基于统计的分割方法
2.2.2 基于分类器的分割方法
2.3 英语长句分割方法
2.3.1 基于规则的分割方法
2.3.2 基于翻译的分割方法
2.3.3 基于多策略的分割方法
2.4 双语对齐方法
2.4.1 基于长度的对齐方法
2.4.2 基于双语词典的对齐方法
3.4.3 基于深度学习的对齐方法
2.5 评价方法
2.6 本章小结
3 结合分割模型和对齐模型的双语分割方法
3.1 双语长句分割方法
3.1.1 问题分析及解决思路
3.1.2 模型框架
3.2 融合依存句法结构信息的长句分割模型
3.2.1 问题分析及解决思路
3.2.2 BI-LSTM+CRF架构
3.2.3 依存句法介绍
3.2.4 模型框架
3.3 基于预训练语言模型的双语对齐模型
3.3.1 问题分析及解决思路
3.3.2 预训练语言模型
3.3.3 模型框架
3.4 本章小结
4 实验及分析
4.1 中文长句分割实验
4.1.1 数据获得
4.1.2 实验设置
4.1.3 实验结果
4.1.4 结果分析
4.2 英文长句分割实验
4.2.1 数据获得
4.2.2 数据处理
4.2.3 实验结果
4.2.4 结果分析
4.3 中英双语对齐实验
4.3.1 实验数据
4.3.2 实验结果
4.3.3 结果分析
4.4 双语分割方法在中英机器翻译上的实验
4.4.1 实验数据
4.4.2 实验设置
4.4.3 实验评价方法
4.4.4 实验结果及分析
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
作者简历及攻读硕士/博士学位期间取得的研究成果
学位论文数据集
本文编号:3821141
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3821141.html