当前位置:主页 > 科技论文 > 软件论文 >

基于英汉平行语料库的双语词对齐系统

发布时间:2021-11-23 03:53
  统计机器翻译的核心是双语平行语料库,需要对大量的平行语料库进行统计分析,从而构建出翻译模型。双语词对齐是统计机器翻译系统中关键的一步,词对齐的准确率将直接影响翻译系统的性能。此外,经过标注词对齐信息的语料具有很大的应用价值。它能为词典编撰、跨语言信息检索和语义消歧等自然语言处理任务提供重要的支撑。因此,如何获取高质量的双语词对齐信息具有很大的研究价值。现有的词对齐方法往往通过统计信息进行对齐,没有充分考虑不同语言之间的语言特征。在训练过程中通常需要大量的标注好的词对齐数据,而人工标注的对齐数据又太少,不能满足训练需求。传统的词对齐模型考虑的词汇特征是稀疏的,从而导致语料中低频词的对齐效果较差。本文针对以上问题,采用深度学习的方法进行词对齐的研究,主要工作如下:(1)研究基于循环神经网络的词对齐方法。该方法将传统的隐马尔可夫模型融入循环神经网络中,并且考虑句子的上下文信息,利用词汇的相似性,将句子中的低频词用意思相近的常用词代替,通过常用词找到与目标语言词的对应关系,从而得到低频词的词对齐信息。模型采用无监督的学习方式,省去了人工标注词对齐语料的成本。实验结果表明,该方法改善了词对齐的质... 

【文章来源】:重庆邮电大学重庆市

【文章页数】:78 页

【学位级别】:硕士

【部分图文】:

基于英汉平行语料库的双语词对齐系统


词对齐示例

实例图,实例,词语


图 3.3 词对齐实例将输入的词语映射为低维的词向量,并且越相这些相似的词语在向量空间中会聚集在一起,汇之间的相似度。标语言的词汇表中,加入三种特殊符号<s>、<开始、句子的结束和未登录词。为了找到与低频骤如下:ord2vec 模型进行预训练,得到词向量表;双语平行句对中的词频信息,将频率低于 10 输入的每个句对,先进行判断,如果句子中有记为<unk>,并通过 word2vec 训练好的词向量

双语,短语,训练语料


平行双语句对


本文编号:3513071

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3513071.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户53d3f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com