基于对抗训练的跨语言词向量学习方法研究
发布时间:2021-04-07 18:36
跨语言词向量学习是指利用某一种资源丰富的源语言词向量来辅助资源相对匮乏的目标语言词向量空间的学习,该问题的研究对小语种的自然语言处理任务具有重要的意义。最近,生成对抗网络(GANs)已被成功地运用于无监督的跨语言词向量学习。基于GANs的跨语言词向量模型将源语言和目标语言的单语言词向量看作两个分布,并迫使源向量分布对齐于目标向量分布。本文基于GANs模型开展无监督的跨语言词向量学习方法研究,主要工作如下:(1)跨语言词向量空间在对齐过程中,需要大量目标端信息作为可靠的对齐标准,而已有的基于GANs的跨语言词向量模型普遍忽视了这一点,不能有效地挖掘目标端的信息,导致生成次优的跨语言词向量。针对这一问题,提出一种新颖的基于改进WGAN和回译的跨语言词向量方法,通过对目标端样本的重复使用为对齐过程建立了可靠的参照标准。该方法首先使用一个基于改进WGAN的跨语言词向量模型学习初步的双向映射,然后根据获得的映射矩阵对目标端的词向量进行回译训练。三个语言对上的实验结果证明了该算法的有效性。(2)跨语言词向量学习中,相对高频词来说,低频词的语义信息相对较弱。因此,在跨语言词向量学习过程中低频词易对向...
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
ABWAGAN算法框架
合肥工业大学学历硕士研究生学位论文18图3.2AWAGAN算法框架Fig.3.2TheFrameworkofAWGAN其中,`x=G(x)+(1)y,是一个服从均匀分布的随机数,即U(0,1)栱,G(x)表示生成器G根据样本x生成的样本。因此,判断器的损失函数由公式(3.2)给出:(())()DpenaltyL=DGxDy+L(3.2)其中,D()$定义为样本的Wasserstein距离,为一个平衡系数。在我们的模型中,310=效果很好。我们初始化生成器的权值为一个映射矩阵ddGR,用于最小化判断器度量的Wasserstein距离。我们还在生成器的基础上堆叠了一个解码器TG,用于从映射后的向量中重构源语言向量输入。因此,解码器旨在最大化生成器的输入x和解码器的输出x"之间的余弦距离。此外,我们引入了一个超参数用来在映射矩阵上施加一个弱正交约束。生成器和解码器共同构成一个自动编码器。因此,自动编码器的损失函数AEL由生成器的损失函数和重构器的损失函数共同组成,如公式(3.3)所示:(()cos(,)TAEL=DGxxGGx(3.3)其中,cos(,)TxGGx表示重构误差,超参数反映了模型的正交程度。在初步的映射学习中,我们使用RMSprop[50]作为梯度更新算法,并设置学习率为310。3.2.2.3目标端的回译训练经过初步的映射学习后,我们利用一个基于目标端的回译训练来进一步优化以得到更高质量的跨语言映射。回译(Back-translation)指将一种语言的文本翻译成另一种语言,然后再翻译回原始的语言。这一概念最先被用来提高神经机器翻译模型的质量[51]。在本章中,我们训练一个神经网络对目标端的词向量进行回译操作,以此进一步挖掘目标端的分布信息。我们称这个执行回译操作的神经网络为BTN(Back-translationnetwork),其算法的框架图如图3.3所示。BTN以目标端的词向量y为输入,以初步映射矩阵"yx
第三章基于改进WGAN和回译的跨语言词向量方法研究19交约束项,通过数据驱动来激励网络权值的弱正交性。最终,BTN的目标函数如公式(3.4)所示:图3.3BTN算法框架Fig.3.3TheFrameworkofBTNcos(,"")""BTxyyxxyyxFLyGGyGGI→→→→=+(3.4)其中,I是单位阵,超参数的作用是平衡回译训练和正交约束。值越大,映射矩阵的正交性也越强。在目标端的回译训练中,我们同样使用RMSprop作为梯度下降更新算法,并设置其学习率为4510。值得注意得是,我们在每一次迭代中同时更新"xyG→和"yxG→。在足够次的迭代后,更新后的"xyG→就是最终的映射矩阵xyG→。3.3实验与分析本小节主要介绍我们的实验结果和相关的实验分析。一方面,我们为了证明ABWGAN的有效性,在三种语言对上比较了ABWGAN和几个无监督的跨语言词向量模型。另一方面,我们设计了多个ABWGAN的变种模型,并通过实验对这些变种模型进行比较,以此来说明目标端的回译训练的合理性和必要性。3.3.1实验数据集和评估任务我们的实验执行在一个由Zhang等人[17]提供的公开数据集上。该数据集包括三种语言对,分别是:中文-英语(<Zh,En>)、土耳其语-英语(<Tr-En>)和西班牙语-英语(Es-En)。数据集中的单语言词向量是在维基百科可比语料库训练word2vec得到的。表3.1给出了每种语言下词向量的统计数据。此外,评估时使用的标准字典是由Lample等人[23]发布的1500个词对。本章所使用的跨语言词向量评估任务是双语言字典生成任务。具体来说,我们首先利用CSLS[23]计算所有的目标词向量和映射后的源语言词向量间的相似度评分,再根据这个相似度评分为每个源语言词寻找其前k个最近邻词,从而构成双语言字典。最后,比较生成的字典和标准的字典获得生成字典的准确率P@k。我?
【参考文献】:
期刊论文
[1]基于改进自编码器的文本分类算法[J]. 许卓斌,郑海山,潘竹虹. 计算机科学. 2018(06)
[2]融合先验信息的蒙汉神经网络机器翻译模型[J]. 樊文婷,侯宏旭,王洪彬,武静,李金廷. 中文信息学报. 2018(06)
[3]基于词向量模型的情感分析[J]. 魏广顺,吴开超. 计算机系统应用. 2017(03)
[4]一种用于文章推荐系统中的用户模型表示方法[J]. 赵鹏,蔡庆生,王清毅. 计算机技术与发展. 2007(01)
本文编号:3123978
【文章来源】:合肥工业大学安徽省 211工程院校 教育部直属院校
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
ABWAGAN算法框架
合肥工业大学学历硕士研究生学位论文18图3.2AWAGAN算法框架Fig.3.2TheFrameworkofAWGAN其中,`x=G(x)+(1)y,是一个服从均匀分布的随机数,即U(0,1)栱,G(x)表示生成器G根据样本x生成的样本。因此,判断器的损失函数由公式(3.2)给出:(())()DpenaltyL=DGxDy+L(3.2)其中,D()$定义为样本的Wasserstein距离,为一个平衡系数。在我们的模型中,310=效果很好。我们初始化生成器的权值为一个映射矩阵ddGR,用于最小化判断器度量的Wasserstein距离。我们还在生成器的基础上堆叠了一个解码器TG,用于从映射后的向量中重构源语言向量输入。因此,解码器旨在最大化生成器的输入x和解码器的输出x"之间的余弦距离。此外,我们引入了一个超参数用来在映射矩阵上施加一个弱正交约束。生成器和解码器共同构成一个自动编码器。因此,自动编码器的损失函数AEL由生成器的损失函数和重构器的损失函数共同组成,如公式(3.3)所示:(()cos(,)TAEL=DGxxGGx(3.3)其中,cos(,)TxGGx表示重构误差,超参数反映了模型的正交程度。在初步的映射学习中,我们使用RMSprop[50]作为梯度更新算法,并设置学习率为310。3.2.2.3目标端的回译训练经过初步的映射学习后,我们利用一个基于目标端的回译训练来进一步优化以得到更高质量的跨语言映射。回译(Back-translation)指将一种语言的文本翻译成另一种语言,然后再翻译回原始的语言。这一概念最先被用来提高神经机器翻译模型的质量[51]。在本章中,我们训练一个神经网络对目标端的词向量进行回译操作,以此进一步挖掘目标端的分布信息。我们称这个执行回译操作的神经网络为BTN(Back-translationnetwork),其算法的框架图如图3.3所示。BTN以目标端的词向量y为输入,以初步映射矩阵"yx
第三章基于改进WGAN和回译的跨语言词向量方法研究19交约束项,通过数据驱动来激励网络权值的弱正交性。最终,BTN的目标函数如公式(3.4)所示:图3.3BTN算法框架Fig.3.3TheFrameworkofBTNcos(,"")""BTxyyxxyyxFLyGGyGGI→→→→=+(3.4)其中,I是单位阵,超参数的作用是平衡回译训练和正交约束。值越大,映射矩阵的正交性也越强。在目标端的回译训练中,我们同样使用RMSprop作为梯度下降更新算法,并设置其学习率为4510。值得注意得是,我们在每一次迭代中同时更新"xyG→和"yxG→。在足够次的迭代后,更新后的"xyG→就是最终的映射矩阵xyG→。3.3实验与分析本小节主要介绍我们的实验结果和相关的实验分析。一方面,我们为了证明ABWGAN的有效性,在三种语言对上比较了ABWGAN和几个无监督的跨语言词向量模型。另一方面,我们设计了多个ABWGAN的变种模型,并通过实验对这些变种模型进行比较,以此来说明目标端的回译训练的合理性和必要性。3.3.1实验数据集和评估任务我们的实验执行在一个由Zhang等人[17]提供的公开数据集上。该数据集包括三种语言对,分别是:中文-英语(<Zh,En>)、土耳其语-英语(<Tr-En>)和西班牙语-英语(Es-En)。数据集中的单语言词向量是在维基百科可比语料库训练word2vec得到的。表3.1给出了每种语言下词向量的统计数据。此外,评估时使用的标准字典是由Lample等人[23]发布的1500个词对。本章所使用的跨语言词向量评估任务是双语言字典生成任务。具体来说,我们首先利用CSLS[23]计算所有的目标词向量和映射后的源语言词向量间的相似度评分,再根据这个相似度评分为每个源语言词寻找其前k个最近邻词,从而构成双语言字典。最后,比较生成的字典和标准的字典获得生成字典的准确率P@k。我?
【参考文献】:
期刊论文
[1]基于改进自编码器的文本分类算法[J]. 许卓斌,郑海山,潘竹虹. 计算机科学. 2018(06)
[2]融合先验信息的蒙汉神经网络机器翻译模型[J]. 樊文婷,侯宏旭,王洪彬,武静,李金廷. 中文信息学报. 2018(06)
[3]基于词向量模型的情感分析[J]. 魏广顺,吴开超. 计算机系统应用. 2017(03)
[4]一种用于文章推荐系统中的用户模型表示方法[J]. 赵鹏,蔡庆生,王清毅. 计算机技术与发展. 2007(01)
本文编号:3123978
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3123978.html
最近更新
教材专著