基于反馈机制的无监督跨语言词表示方法
发布时间:2022-10-15 20:15
跨语言词语表示方法能够把两种或多种人类语言的词语表示在一个共同的空间中,为各种语义计算和知识迁移提供基础支撑。大多跨语言词语表示方法,都需要某种形式的监督知识来训练模型。然而,资源的匮乏,已经成为制约各种跨语言任务的瓶颈问题。无监督方法不需要任何的平行语料或双语词典,仅仅依赖各种语言的单语语料库,就能够自动学习得到跨语言词语表示和翻译词典。因而具有非常重要的研究意义。然而现有的方法存在一个很大的问题:要求在单语语料上分别训练的词向量满足同构性假设。本文提出基于反馈机制的跨语言词向量共训练方法,旨在使得词向量天然具有跨语言性质。本文首先从各个角度对基线模型进行了改进,包括词向量的初始化、初始词典的性能、映射方式和距离度量方式等方面的研究。最终确定了使用迭代初始化的方式以及跨领域相似度本地缩放等技术可以提高抽取词典的准确率。之后,给出了获取训练词典的标准。分别研究了词条选词的标准和候选词表大小的设置两个问题,最终得到训练词典。发现了基于确信度抽取词典的方式更加有效。利用训练词典,分别使用加入正则项约束的方法和基于替换的方法进行词向量的共训练。这两种方法基于不同的思路,但目标都希望词典中互为...
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景
1.2 课题研究目的与意义
1.3 国内外研究现状
1.3.1 有监督方法研究现状
1.3.2 无监督方法研究现状
1.4 本文主要研究内容及章节安排
1.4.1 研究内容
1.4.2 章节安排
第2章 基线模型分析优化与训练词典的获取
2.1 引言
2.2 基线模型介绍
2.2.1 vecmap模型原理和训练过程
2.2.2 枢纽点问题和CSLS
2.2.3 数据集和实验设置
2.3 基线模型分析与优化
2.3.1 vecmap模型的分析
2.3.2 关于影响因素的实验
2.3.3 同构性的分析
2.3.4 优化方式
2.4 训练词典获取
2.4.1 选取待翻译词条标准分析
2.4.2 每个待翻译词条的候选译文个数分析
2.4.3 关于候选译文个数的实验
2.5 本章小结
第3章 基于替换的跨语言词向量共训练
3.1 引言
3.2 基于反馈机制的无监督跨语言词典抽取
3.2.1 模型框架
3.2.2 词向量的共训练方法
3.3 单语词向量训练方法
3.3.1 语言模型简介
3.3.2 连续词袋模型
3.3.3 随机负采样算法
3.4 基于替换的共训练方法
3.4.1 方法原理介绍
3.4.2 具体实现和细节说明
3.4.3 实验结果及分析
3.5 本章小结
第4章 加入正则项约束的跨语言词向量共训练
4.1 引言
4.2 word2vec的损失函数及梯度求导
4.3 加入正则项限制的共训练方法
4.3.1 模型原理
4.3.2 梯度推导
4.3.3 实验结果及分析
4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文及其他成果
致谢
【参考文献】:
期刊论文
[1]人工智能背景下对机器翻译的思考[J]. 张一宁,徐林熇. 长春理工大学学报(社会科学版). 2019(03)
[2]全球化趋势与世界语言问题[J]. 刘汝山,王美玲. 中国海洋大学学报(社会科学版). 2007(06)
[3]基于Web数据的特定领域双语词典抽取[J]. 张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林. 中文信息学报. 2006(02)
[4]网络时代的语言竞争:文化生态学的思考[J]. 黄长著. 国外社会科学. 2001(01)
本文编号:3691966
【文章页数】:57 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景
1.2 课题研究目的与意义
1.3 国内外研究现状
1.3.1 有监督方法研究现状
1.3.2 无监督方法研究现状
1.4 本文主要研究内容及章节安排
1.4.1 研究内容
1.4.2 章节安排
第2章 基线模型分析优化与训练词典的获取
2.1 引言
2.2 基线模型介绍
2.2.1 vecmap模型原理和训练过程
2.2.2 枢纽点问题和CSLS
2.2.3 数据集和实验设置
2.3 基线模型分析与优化
2.3.1 vecmap模型的分析
2.3.2 关于影响因素的实验
2.3.3 同构性的分析
2.3.4 优化方式
2.4 训练词典获取
2.4.1 选取待翻译词条标准分析
2.4.2 每个待翻译词条的候选译文个数分析
2.4.3 关于候选译文个数的实验
2.5 本章小结
第3章 基于替换的跨语言词向量共训练
3.1 引言
3.2 基于反馈机制的无监督跨语言词典抽取
3.2.1 模型框架
3.2.2 词向量的共训练方法
3.3 单语词向量训练方法
3.3.1 语言模型简介
3.3.2 连续词袋模型
3.3.3 随机负采样算法
3.4 基于替换的共训练方法
3.4.1 方法原理介绍
3.4.2 具体实现和细节说明
3.4.3 实验结果及分析
3.5 本章小结
第4章 加入正则项约束的跨语言词向量共训练
4.1 引言
4.2 word2vec的损失函数及梯度求导
4.3 加入正则项限制的共训练方法
4.3.1 模型原理
4.3.2 梯度推导
4.3.3 实验结果及分析
4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的学术论文及其他成果
致谢
【参考文献】:
期刊论文
[1]人工智能背景下对机器翻译的思考[J]. 张一宁,徐林熇. 长春理工大学学报(社会科学版). 2019(03)
[2]全球化趋势与世界语言问题[J]. 刘汝山,王美玲. 中国海洋大学学报(社会科学版). 2007(06)
[3]基于Web数据的特定领域双语词典抽取[J]. 张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林. 中文信息学报. 2006(02)
[4]网络时代的语言竞争:文化生态学的思考[J]. 黄长著. 国外社会科学. 2001(01)
本文编号:3691966
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3691966.html
最近更新
教材专著