基于枢轴语言的汉-缅平行语料库构建方法研究

发布时间:2023-03-18 22:47
  缅甸是“一带一路”沿线上的关键节点之一,也是中国与东南亚连接的重要枢纽。中缅不论是在经济、政治还是文化等各个方面的合作交流空间巨大,中缅语言的机器翻译研究具有重大意义,然而中缅机器翻译发展又取决于东南亚低资源平行语料库的获取。近年来,英语与其他语言的机器翻译一直得到大量的研发投入,积累了大规模的平行语料资源,译文质量也达到了一定实用水平。但是在资源匮乏的语言上应用还不太成熟,特别是缅甸稀缺语言,平行语料的规模较小。因此研究如何构建低资源的平行语料库具有重要意义。本文通过将英语作为枢轴语言,构建汉-英-缅三者的公共语义空间,实现汉-缅平行句对抽取以完成汉-缅平行语料库的构建工作。主要完成了以下工作:(1)基础语料库的构建构建工作包括:1.英-缅平行语料,英-缅可比语料库,通过从互联网上收集大量的英-缅新闻网站或者英-缅在线词典,进而爬取语料。2.中-英平行语料,主要使用联合国语料库。3.缅甸语单语语料,对于缅甸语单语语料可直接在缅甸网站爬取。首先,搜集英-缅互译的新闻网站。然后,对每个新闻网站,分析其页面结构特点,爬取英语新闻、缅甸语新闻,构建文本语料库。最后,获取到部分英-缅平行语料库...

【文章页数】:70 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文的研究内容
    1.4 论文的组织
第二章 语料库构建
    2.1 引言
    2.2 英-缅双语语料来源
    2.3 英-缅双语语料获取
    2.4 缅甸语句法相关知识
        2.4.1 缅语音节特点
        2.4.2 缅语虚词和助词
        2.4.3 缅语功能标记
    2.5 本章小节
第三章 基于Siamese框架的英缅平行句对抽取
    3.1 引言
    3.2 研究现状
    3.3 相关研究
        3.3.1 Siamese框架概述
    3.4 基于Siamese框架的英缅平行句对抽取模型
        3.4.1 英-缅双语词向量训练
        3.4.2 基于Bi-LSTM和 CNN的句子表征
        3.4.3 模型训练
    3.5 实验结果与分析
        3.5.1 实验数据
        3.5.2 实验结果
    3.6 本章小结
第四章 基于枢轴语言和CorrNet的汉-缅双语句对抽取
    4.1 引言
    4.2 研究现状
    4.3 相关研究
        4.3.1 典型相关分析
        4.3.2 AutoEncoders
        4.3.3 Correlational Neural Networks
    4.4 基于枢轴语言和CorrNet的汉-缅双语句对抽取
        4.4.1 基于降噪编码器(DAE)的汉、英、缅句子表征学习
        4.4.2 基于枢轴语言和CorrNet的汉-缅双语句对抽取
    4.5 实验
        4.5.1 实验数据
        4.5.2 实验设置
        4.5.3 实验结果
    4.6 本章小结
第五章 汉-缅双语平行句对抽取原型系统实现
    5.1 系统整体构架
    5.2 系统开发所需工具及资源
        5.2.1 基础开源框架
        5.2.2 系统环境配置
        5.2.3 系统模块任务划分
    5.3 系统实现展示
    5.4 本章小结
第六章 总结与展望
    6.1 论文总结
    6.2 下一步工作
致谢
参考文献
附录A 攻读硕士学位期间发表论文与申请软件著作权
附录B 攻读硕士期间参与项目



本文编号:3764019

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3764019.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户794d9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com