基于映射的无监督跨语言词向量模型研究

发布时间:2024-06-25 19:01
  词向量(Word Embedding)是现今单词的主流表示方法。基于映射的无监督跨语言词向量(Unsupervised Cross-lingual Emeddings)旨在不使用任何跨语言知识,将源语言和目标语言的词向量映射到同一向量空间中,使得不同语言下语义相同的词具有较高的相似度。研究该问题对于解决资源匮乏的语言的信息鸿沟问题和跨语言自然语言处理任务有着重大意义。近年来,各国学者在该方向上的研究取得了许多成果。不过现有的无监督方法存在着两个不足(1)没有处理一次多义的问题;(2)模型在实际应用场景中的鲁棒性不足,尤其是对于距离遥远的语言对。针对以上问题,本文的主要研究工作包含以下内容:1.分析了造成无监督鲁棒性不足的原因,发现无监督方法所依赖的同构性假设在实际应用场景中是不成立的。之后量化的分析了无监督方法的鲁棒性,并提出了语言词向量模型的距离度量方法。该度量方法成功地表现出了语言模型在语言学知识下的距离性质,不同语系的语言较同一语系下的语言有着更大的距离值。然后研究表明了语言距离与无监督模型的性能存在着线性关系,关系较远的语言在无监督模型的件能上有着明显的下降。2.本文提出从构建...

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

图1-1英语和西班牙语中数字词向最与动物词向鋒之间的呈现了相似的几何关??系[2】??

图1-1英语和西班牙语中数字词向最与动物词向鋒之间的呈现了相似的几何关??系[2】??

?〇???〇?*??}??J???.?.?1?〇do>(two)??"j*???'????U?M?M?t;?"Xi?I??J?!??13??#?'???4r?IS??〇?horse?〇?cabalo?(horse)???,?,J?ovaca?(cow)??m?‘?〇?cow?(J....


图2-1?Word2Vec的连续词袋模型和跳字模型结构图[55]??(1)?Skip-gram?模型??

图2-1?Word2Vec的连续词袋模型和跳字模型结构图[55]??(1)?Skip-gram?模型??

FastText模型。??2.3.1.1?Word2Vec??谷歌(Google)公司在2013年开源发布了一种可以将单词转换为向量形式??的计算工具W〇rd2VeC[2],它基于分布假设的思想,可以根据词忙间的距离或相似??度表示出单词间的关系,从而发掘出语言词?I:结构和关系....


图2-2?Word2Vec下的跳寺模型[55]??如图2-2所示,Skip-gram可以看做是由输入层、隐藏层(也称为投射层)、??输出M构成的三雇网络:输入层是由中心词构成的V维的独热编码的向量s中??

图2-2?Word2Vec下的跳寺模型[55]??如图2-2所示,Skip-gram可以看做是由输入层、隐藏层(也称为投射层)、??输出M构成的三雇网络:输入层是由中心词构成的V维的独热编码的向量s中??

?哈尔滨工业大学工学硕士学位论文???它距离不超过2的背景词“method”、“for”、“word”、“embeddings”的条件概率。??/〇?Output?layer??T?,?Awt??Input?layer?/?/??layer/??〇?wrxJV?ht?i??F-d....


图2-3?Word2Vec的连续词袋模型[55]??_?skip-gram模III类似,CBOW模塑的结构同枰是一个三属的全連接神经网??络,同样它只有一个隐藏层

图2-3?Word2Vec的连续词袋模型[55]??_?skip-gram模III类似,CBOW模塑的结构同枰是一个三属的全連接神经网??络,同样它只有一个隐藏层

?哈尔滨工业大学工学硕士学位论文???Input?layer??J\??^^mdde^^g011,iayer??X2k?〇?^ht?^'n^V?〇?yj????/?/?F-dim??%?w^/??-;/??5/?CxF-dim??图2-3?Word2Vec的连续词袋模型[55]?....



本文编号:3995763

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3995763.html

上一篇:基于深度学习的非模型法步态识别研究  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户96974***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com