基于共享语义空间的无监督双语词典抽取
发布时间:2021-07-30 02:16
无监督双语词典抽取(Unsupervised Bilingual Lexicon Induction)旨在不借助任何跨语言知识的条件下从两种语言的单语语料中获取双语翻译词典。成功的解决这个问题将会为资源匮乏的语言和很多跨语言自然语言处理任务带来巨大的收益。近年来,人们在无监督双语词典抽取上的研究取得了巨大的进步,并已成功将获取到的无监督双语词典应用到许多下游任务中。然而现有的方法并不是完美的,存在如下两个不足:(1)现有模型在理论上不是最优的,其性能也不够理想;(2)在真实的场景下鲁棒性不足,尤其是差异较大的语言对中准确率较低。为了解决以上问题,本文主要进行了以下两方面的工作,用来获取更高质量的无监督双语词典。第一,本文提出了一种基于共享语义空间的无监督双语词典抽取模型。相比于现有的方法,本模型不是学习一个从源语言词向量空间到目标语言词向量空间的单向线性变换,而是为源语言和目标语言学习一个共享的语义空间,再利用这个空间进行无监督双语词典抽取。理论上来说,基于共享语义空间的模型相比于现有模型表达能力更强。因此在这个空间中,两个语言的词向量可以更好的匹配,从而更有利于双语词典抽取。通过在8...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景及研究目的和意义
1.2 国内外研究现状
1.2.1 有监督双语词典抽取模型
1.2.2 半监督双语词典抽取模型
1.2.3 无监督双语词典抽取模型
1.3 本文的主要研究内容
1.4 论文的组织结构
第2章 基线无监督双语词典抽取模型的分析
2.1 引言
2.2 无监督双语词典抽取的任务设置
2.2.1 数据集
2.2.2 评估方式
2.3 基线模型
2.3.1 预训练单语词向量
2.3.2 对抗训练
2.3.3 迭代增强
2.4 基线模型的不足
2.4.1 同构性假设
2.4.2 单向的线性变换
2.5 本章小结
第3章 基于共享语义空间的无监督双语词典抽取模型
3.1 引言
3.2 共享语义空间
3.2.1 共享语义空间假设
3.2.2 共享语义空间的优越性分析
3.3 基于共享语义空间的无监督词典抽取模型
3.3.1 模型结构
3.3.2 模型实现细节
3.3.3 模型选择策略
3.3.4 模型参数细节
3.4 共享语义空间的有效性验证
3.4.1 实验设置
3.4.2 实验结果与分析
3.5 本章小结
第4章 无监督双语词典抽取模型的优化
4.1 引言
4.2 预训练单语词向量
4.2.1 词向量的预训练算法
4.2.2 预训练单语词向量对模型性能的影响
4.3 单语词向量的预处理
4.3.1 单语词向量的常见预处理方式
4.3.2 预处理单语词向量对性能的影响
4.4 共享语义空间的维度
4.4.1 共享语义空间的维度设置
4.4.2 共享语义空间的维度对模型性能的影响
4.5 词向量映射的形式
4.5.1 正交、线性和非线性的词向量映射模型
4.5.2 词向量映射的形式对无监督双语词典抽取性能的影响
4.6 迭代增强技术
4.6.1 两种不同的迭代增强技术
4.6.2 迭代增强技术对模型性能的影响
4.7 优化的无监督双语词典抽取模型
4.7.1 实验设置
4.7.2 性能测试与分析
4.8 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
【参考文献】:
期刊论文
[1]基于Web数据的特定领域双语词典抽取[J]. 张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林. 中文信息学报. 2006(02)
本文编号:3310480
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:72 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第1章 绪论
1.1 课题背景及研究目的和意义
1.2 国内外研究现状
1.2.1 有监督双语词典抽取模型
1.2.2 半监督双语词典抽取模型
1.2.3 无监督双语词典抽取模型
1.3 本文的主要研究内容
1.4 论文的组织结构
第2章 基线无监督双语词典抽取模型的分析
2.1 引言
2.2 无监督双语词典抽取的任务设置
2.2.1 数据集
2.2.2 评估方式
2.3 基线模型
2.3.1 预训练单语词向量
2.3.2 对抗训练
2.3.3 迭代增强
2.4 基线模型的不足
2.4.1 同构性假设
2.4.2 单向的线性变换
2.5 本章小结
第3章 基于共享语义空间的无监督双语词典抽取模型
3.1 引言
3.2 共享语义空间
3.2.1 共享语义空间假设
3.2.2 共享语义空间的优越性分析
3.3 基于共享语义空间的无监督词典抽取模型
3.3.1 模型结构
3.3.2 模型实现细节
3.3.3 模型选择策略
3.3.4 模型参数细节
3.4 共享语义空间的有效性验证
3.4.1 实验设置
3.4.2 实验结果与分析
3.5 本章小结
第4章 无监督双语词典抽取模型的优化
4.1 引言
4.2 预训练单语词向量
4.2.1 词向量的预训练算法
4.2.2 预训练单语词向量对模型性能的影响
4.3 单语词向量的预处理
4.3.1 单语词向量的常见预处理方式
4.3.2 预处理单语词向量对性能的影响
4.4 共享语义空间的维度
4.4.1 共享语义空间的维度设置
4.4.2 共享语义空间的维度对模型性能的影响
4.5 词向量映射的形式
4.5.1 正交、线性和非线性的词向量映射模型
4.5.2 词向量映射的形式对无监督双语词典抽取性能的影响
4.6 迭代增强技术
4.6.1 两种不同的迭代增强技术
4.6.2 迭代增强技术对模型性能的影响
4.7 优化的无监督双语词典抽取模型
4.7.1 实验设置
4.7.2 性能测试与分析
4.8 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其他成果
致谢
【参考文献】:
期刊论文
[1]基于Web数据的特定领域双语词典抽取[J]. 张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林. 中文信息学报. 2006(02)
本文编号:3310480
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3310480.html