基于枢轴语言的汉-缅平行语料库构建方法研究
发布时间:2023-03-18 22:47
缅甸是“一带一路”沿线上的关键节点之一,也是中国与东南亚连接的重要枢纽。中缅不论是在经济、政治还是文化等各个方面的合作交流空间巨大,中缅语言的机器翻译研究具有重大意义,然而中缅机器翻译发展又取决于东南亚低资源平行语料库的获取。近年来,英语与其他语言的机器翻译一直得到大量的研发投入,积累了大规模的平行语料资源,译文质量也达到了一定实用水平。但是在资源匮乏的语言上应用还不太成熟,特别是缅甸稀缺语言,平行语料的规模较小。因此研究如何构建低资源的平行语料库具有重要意义。本文通过将英语作为枢轴语言,构建汉-英-缅三者的公共语义空间,实现汉-缅平行句对抽取以完成汉-缅平行语料库的构建工作。主要完成了以下工作:(1)基础语料库的构建构建工作包括:1.英-缅平行语料,英-缅可比语料库,通过从互联网上收集大量的英-缅新闻网站或者英-缅在线词典,进而爬取语料。2.中-英平行语料,主要使用联合国语料库。3.缅甸语单语语料,对于缅甸语单语语料可直接在缅甸网站爬取。首先,搜集英-缅互译的新闻网站。然后,对每个新闻网站,分析其页面结构特点,爬取英语新闻、缅甸语新闻,构建文本语料库。最后,获取到部分英-缅平行语料库...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文的研究内容
1.4 论文的组织
第二章 语料库构建
2.1 引言
2.2 英-缅双语语料来源
2.3 英-缅双语语料获取
2.4 缅甸语句法相关知识
2.4.1 缅语音节特点
2.4.2 缅语虚词和助词
2.4.3 缅语功能标记
2.5 本章小节
第三章 基于Siamese框架的英缅平行句对抽取
3.1 引言
3.2 研究现状
3.3 相关研究
3.3.1 Siamese框架概述
3.4 基于Siamese框架的英缅平行句对抽取模型
3.4.1 英-缅双语词向量训练
3.4.2 基于Bi-LSTM和 CNN的句子表征
3.4.3 模型训练
3.5 实验结果与分析
3.5.1 实验数据
3.5.2 实验结果
3.6 本章小结
第四章 基于枢轴语言和CorrNet的汉-缅双语句对抽取
4.1 引言
4.2 研究现状
4.3 相关研究
4.3.1 典型相关分析
4.3.2 AutoEncoders
4.3.3 Correlational Neural Networks
4.4 基于枢轴语言和CorrNet的汉-缅双语句对抽取
4.4.1 基于降噪编码器(DAE)的汉、英、缅句子表征学习
4.4.2 基于枢轴语言和CorrNet的汉-缅双语句对抽取
4.5 实验
4.5.1 实验数据
4.5.2 实验设置
4.5.3 实验结果
4.6 本章小结
第五章 汉-缅双语平行句对抽取原型系统实现
5.1 系统整体构架
5.2 系统开发所需工具及资源
5.2.1 基础开源框架
5.2.2 系统环境配置
5.2.3 系统模块任务划分
5.3 系统实现展示
5.4 本章小结
第六章 总结与展望
6.1 论文总结
6.2 下一步工作
致谢
参考文献
附录A 攻读硕士学位期间发表论文与申请软件著作权
附录B 攻读硕士期间参与项目
本文编号:3764019
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.3 论文的研究内容
1.4 论文的组织
第二章 语料库构建
2.1 引言
2.2 英-缅双语语料来源
2.3 英-缅双语语料获取
2.4 缅甸语句法相关知识
2.4.1 缅语音节特点
2.4.2 缅语虚词和助词
2.4.3 缅语功能标记
2.5 本章小节
第三章 基于Siamese框架的英缅平行句对抽取
3.1 引言
3.2 研究现状
3.3 相关研究
3.3.1 Siamese框架概述
3.4 基于Siamese框架的英缅平行句对抽取模型
3.4.1 英-缅双语词向量训练
3.4.2 基于Bi-LSTM和 CNN的句子表征
3.4.3 模型训练
3.5 实验结果与分析
3.5.1 实验数据
3.5.2 实验结果
3.6 本章小结
第四章 基于枢轴语言和CorrNet的汉-缅双语句对抽取
4.1 引言
4.2 研究现状
4.3 相关研究
4.3.1 典型相关分析
4.3.2 AutoEncoders
4.3.3 Correlational Neural Networks
4.4 基于枢轴语言和CorrNet的汉-缅双语句对抽取
4.4.1 基于降噪编码器(DAE)的汉、英、缅句子表征学习
4.4.2 基于枢轴语言和CorrNet的汉-缅双语句对抽取
4.5 实验
4.5.1 实验数据
4.5.2 实验设置
4.5.3 实验结果
4.6 本章小结
第五章 汉-缅双语平行句对抽取原型系统实现
5.1 系统整体构架
5.2 系统开发所需工具及资源
5.2.1 基础开源框架
5.2.2 系统环境配置
5.2.3 系统模块任务划分
5.3 系统实现展示
5.4 本章小结
第六章 总结与展望
6.1 论文总结
6.2 下一步工作
致谢
参考文献
附录A 攻读硕士学位期间发表论文与申请软件著作权
附录B 攻读硕士期间参与项目
本文编号:3764019
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3764019.html
最近更新
教材专著