稀疏资源条件下的藏汉机器翻译研究
发布时间:2021-11-20 11:16
机器翻译是指运用特定的计算机程序将一种自然语言转换为另一种自然语言的过程。自上世纪50年代提出机器翻译的思想以来,机器翻译领域的研究经历了从规则到统计再到深度学习的理论和技术的多次迭代,是整个人工智能领域中最为活跃的研究方向,取得了巨大的进展,并且在未来有广阔的发展前景。藏汉机器翻译研究作为藏语自然语言处理领域中主要的课题之一,一直是我国少数民族语言信息化研究的重要工作。本文着眼于藏汉机器翻译研究中的数据稀疏问题,在Transformer神经网络翻译模型基础上,运用百万句子单语数据大规模迭代式回译策略和译文自动筛选机制,使最终的模型比基准模型有4个BLEU值的提升,证实了回译方法的有效性。除此之外,论文还实现了基于短语的统计翻译模型和三类基于主流神经网络构架的藏汉机器翻译基准模型,并对面向神经网络藏汉机器翻译的分词方法进行了研究分析。本篇论文的主要内容包括:·研究和分析了面向神经网络的藏汉机器翻译的分词方法,以实验方式证实了基于字节对编码的子词分词模型有最好的表现;·实现了用于辨别藏汉句对翻译等效性的端对端分类器;·结合翻译等效性的分类器和大规模对偶迭代式的回译策略,实现了藏汉翻译在稀...
【文章来源】:青海师范大学青海省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
016-2024年机器翻译的市场规模估值
图 2.6 Ngram-viewer 中 “中国”、“经济” 和 “发展” 三个词的频度走势上所有的统计机器翻译方法都有词对齐的概念[90],是跨语言的简单映射[85], 旨在将源语言的句子 中第 位置的词 对应到中第 词 ,即设法获得一个函数 : → ,如图 2.7 。但是实例的翻译方法,这一映射的获取并不需要利用任何先验的语计算机算法在一定规模的双语平行文本数据中以概率推演方式基本思想即是在双语对齐文本中经常成对出现的两个词或者其常出现的更有可能是语义上对等的。Och 于 2001 发布的 GIZ,实现了 IMB 统计模型系列[5,85]中的所有词对齐算法,成为绝统实现的软件基础[92]。! +
,其注意力权重 的是通过公式 (2-13) 计算 =exp( )∑ =1( )用于估计输入端的 位置周围的信息与输出端的络的原始论文[9]中使用了一个简单的前馈网络对输入为 1 时刻的解码器端的隐藏状态表示 , 即: = ( 1, ) 馈网络所拟合的函数。可以通过注意力矩阵[9]或者词向量的二维投射[
【参考文献】:
期刊论文
[1]神经网络藏文分词方法研究[J]. 桑杰端珠,才让加. 青海科技. 2018(06)
[2]《中国人工智能发展报告2018》英文版发布[J]. 中国科技奖励. 2018(10)
[3]藏汉神经网络机器翻译研究[J]. 李亚超,熊德意,张民,江静,马宁,殷建民. 中文信息学报. 2017(06)
[4]基于藏语语义分析的机器翻译技术研究[J]. 何向真,万福成,于洪志,吴玺宏. 计算机工程与应用. 2015(15)
[5]藏文数词识别与翻译[J]. 孙萌,华却才让,刘凯,吕雅娟,刘群. 北京大学学报(自然科学版). 2013(01)
[6]机器翻译的历史和现状[J]. 冯志伟. 国外自动化. 1984(04)
博士论文
[1]基于树到串藏语机器翻译若干关键技术研究[D]. 华却才让.陕西师范大学 2014
硕士论文
[1]藏汉双语平行语料库构建方法及关键技术研究[D]. 巴桑卓玛.西藏大学 2018
[2]面向机器翻译的藏语功能组块识别研究[D]. 王天航.北京理工大学 2016
[3]面向藏英机器翻译的藏英句法结构对比研究[D]. 吉毛才让.青海师范大学 2014
本文编号:3507209
【文章来源】:青海师范大学青海省
【文章页数】:78 页
【学位级别】:硕士
【部分图文】:
016-2024年机器翻译的市场规模估值
图 2.6 Ngram-viewer 中 “中国”、“经济” 和 “发展” 三个词的频度走势上所有的统计机器翻译方法都有词对齐的概念[90],是跨语言的简单映射[85], 旨在将源语言的句子 中第 位置的词 对应到中第 词 ,即设法获得一个函数 : → ,如图 2.7 。但是实例的翻译方法,这一映射的获取并不需要利用任何先验的语计算机算法在一定规模的双语平行文本数据中以概率推演方式基本思想即是在双语对齐文本中经常成对出现的两个词或者其常出现的更有可能是语义上对等的。Och 于 2001 发布的 GIZ,实现了 IMB 统计模型系列[5,85]中的所有词对齐算法,成为绝统实现的软件基础[92]。! +
,其注意力权重 的是通过公式 (2-13) 计算 =exp( )∑ =1( )用于估计输入端的 位置周围的信息与输出端的络的原始论文[9]中使用了一个简单的前馈网络对输入为 1 时刻的解码器端的隐藏状态表示 , 即: = ( 1, ) 馈网络所拟合的函数。可以通过注意力矩阵[9]或者词向量的二维投射[
【参考文献】:
期刊论文
[1]神经网络藏文分词方法研究[J]. 桑杰端珠,才让加. 青海科技. 2018(06)
[2]《中国人工智能发展报告2018》英文版发布[J]. 中国科技奖励. 2018(10)
[3]藏汉神经网络机器翻译研究[J]. 李亚超,熊德意,张民,江静,马宁,殷建民. 中文信息学报. 2017(06)
[4]基于藏语语义分析的机器翻译技术研究[J]. 何向真,万福成,于洪志,吴玺宏. 计算机工程与应用. 2015(15)
[5]藏文数词识别与翻译[J]. 孙萌,华却才让,刘凯,吕雅娟,刘群. 北京大学学报(自然科学版). 2013(01)
[6]机器翻译的历史和现状[J]. 冯志伟. 国外自动化. 1984(04)
博士论文
[1]基于树到串藏语机器翻译若干关键技术研究[D]. 华却才让.陕西师范大学 2014
硕士论文
[1]藏汉双语平行语料库构建方法及关键技术研究[D]. 巴桑卓玛.西藏大学 2018
[2]面向机器翻译的藏语功能组块识别研究[D]. 王天航.北京理工大学 2016
[3]面向藏英机器翻译的藏英句法结构对比研究[D]. 吉毛才让.青海师范大学 2014
本文编号:3507209
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3507209.html
最近更新
教材专著