基于跨语言词向量的句子对齐方法研究

发布时间:2024-06-15 02:34
  平行语料库是机器翻译、跨语言检索和跨语言自动问答等自然语言处理(Natural Language Processing,NLP)任务的核心基础资源。平行语料库的规模和质量决定了这些系统的性能上限。然而人工构建大规模的平行语料库既昂贵又耗时。可喜的是,网络中(维基百科、多语言字幕网站等)存在海量蕴含部分平行资源的可比语料,若能从其中自动检测并获取平行语料将极大地丰富平行数据的来源,有效提升机器翻译等自然语言处理系统的性能。因此,本文的研究具有重要的科学意义和应用价值。近年来,研究者们使用基于神经网络的方法研究新的高效的句子对齐方法。基本思路都为通过神经网络学习句子的向量表示,然后比较向量间的相似度判断是否为平行句对。然而,通过神经网络生成的句子的向量表示的维度是固定的,不能充分表示句子的信息,比如句子长度的信息等。另一方面,在比较向量相似度时,使用余弦相似度或曼哈顿距离等单一的度量方式未能充分挖掘向量之间的相似关系。本文提出了一种基于跨语言词向量的两级句子对齐方法,该方法可以从不同噪音分布的可比语料库中抽取平行句对。具体来说,两级是指词语级别和句子级别。在词语级别上,我们巧妙地结合了余弦...

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

图1-1维基百科的“社会语言学”词条的中文与英语网页节选Fig.1-1ExcerptsfromtheChineseandEnglishentryofSociolinguisticsonthewebpagesofWikipedia

图1-1维基百科的“社会语言学”词条的中文与英语网页节选Fig.1-1ExcerptsfromtheChineseandEnglishentryofSociolinguisticsonthewebpagesofWikipedia

哈尔滨理工大学工学硕士学位论文-2-中可比语料成为了平行语料资源的重要补充资源,研究者们提出了一系列的句子对齐方法,从网络上大量存在的可比语料中抽取出可用于跨语言自然语言处理任务的平行语料。图1-1维基百科的“社会语言学”词条的中文与英语网页节选Fig.1-1Excerptsfr....


图2-1两种基于神经网络的句子对齐方法结构

图2-1两种基于神经网络的句子对齐方法结构

哈尔滨理工大学工学硕士学位论文-9-进行英语和德语间的双向的翻译。在训练好NMT模型后,丢弃解码器,使用编码器将任意语言的句子表示为一个固定长度的连续的向量表示,得到句子的向量表示后计算向量间的距离作为句对的相似度得分[17-21]。a)双编码器结构b)编码器-解码器结构a)Th....


图2-2四个西班牙词的上下文相关的词向量的二维主成分分析示例图

图2-2四个西班牙词的上下文相关的词向量的二维主成分分析示例图

哈尔滨理工大学工学硕士学位论文-12-下文相关的词向量ELMo的训练方法,训练一种源语言s和一种目标语言t的上下文相关的词向量,然后在此基础上提出了三种语义向量对齐方法,将两种语言的上下文相关的词向量进行语义空间上的对齐。图2-2四个西班牙词的上下文相关的词向量的二维主成分分析示....


图3-1基于跨语言词向量的句子相似度计算方法整体流程

图3-1基于跨语言词向量的句子相似度计算方法整体流程

哈尔滨理工大学工学硕士学位论文-16-别上,我们提出了一种结合向量角度和绝对距离两者的优势的词向量相似度计算方法。其次,在句子级别上,我们基于上一步词级别的相似度计算方法,提出了基于聚合方法的双语句对的相似度计算方法。最后介绍了基于边距的方法,并在句子相似度实验上验证我们提出的方....



本文编号:3994793

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3994793.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户95d77***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com