后验概率正则化在远程监督关系抽取算法中的应用研究
发布时间:2021-08-19 17:55
关系抽取是计算机科学自然语言处理中的重要任务,它能为诸多下游任务,如问答,知识图谱构建提供服务。由于关系抽取模型的构建需要海量的,获取代价高昂的训练数据,这使得远程监督下的关系抽取成为当下的研究热点。针对远程监督的噪音数据问题和当下远程监督关系抽取主流的基于选择性注意力的模型导致的多样性抑制问题,我们利用后验概率正则化框架引入关系类别的专家知识,提出了两种相应的解决方法缓解这两大问题:(1)我们利用后验概率正则化框架,将人类专家在关系抽取领域的经验知识融入样本选择策略中,提出基于规则的样本选择策略,提升样本选择策略的训练效率,减少了策略梯度方法训练过程中所需要的无意义探索,并且提升了样本选择策略的表现,通过此方法选择的样本集合上训练的关系抽取模型也在领域内的权威公开数据集取得了当前最先进水平。由于基于规则的选择策略能够动态的判断每个数据包内保留哪些样本,因此能通过保留的样本数量来实现对数据包质量的评判。(2)我们分析了之前的关于远程监督关系抽取的研究工作的特点以及局限性,提出了之前研究工作导致的多样性抑制问题。针对该问题,我们提出全新的算法框架,利用聚类算法动态构造数据包,并且结合关系...
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
远程监督生成关系抽取样本示意
浙江大学硕士学位论文第2章国内外研究现状12如何使端到端的关系抽取模型不再拘泥于数据包内部,能够对数据包整体的质量进行考量成为近年来很多研究工作关注的重点,Yuan等人提出跨包注意力机制对数据包本身的质量进行建模[39],Feng等人利用强化学习训练样本选择策略[40],都有效地缓解了低质量数据包对关系抽取模型训练过程中的影响。图2.2低质量数据包示例2.6后验概率正则化框架全监督机器学习在自然语言处理,计算机视觉和计算生物学等诸多领域和任务上取得巨大成功。然而,全监督的机器学习往往需要大量与指定任务密切相关的标注数据集,构造这些数据集的代价非常高,我们使用这些全监督方法时成本也很高,比如在对一个小时的音频数据进行标注需要花费400小时,自然语言处理领域中文词性标注项目PennChineseTreebank在项目开始后两年才首次公开第一个版本的4000个句子。为了让模型能够取得更好的性能,对同一种任务,我们常常也需要针对不同领域构造不同的数据集。在数据匮乏的同时,我们常常又有一些与特定问题相关的经验知识,这些经验知识可以是人类专家的经验,也可以是人为总结的一些规则。然而,现在我们很难把这些经验知识融入到全监督的训练过程中。
浙江大学硕士学位论文第2章国内外研究现状14同时,后验正则化也可以和深度学习结合,使深度神经网络的参数能够编码这些先验知识,Hu等人提出利用知识蒸馏的方法[59],利用老师-学生的知识蒸馏学习框架,首先将经验知识通过后验概率正则化框架编码到老师网络中,具体可以用图2.3中的红色虚线表示,在每一轮迭代过程中,教师网络由学生网络通过投影到规则约束的子空间得到,学生网络更新自身的参数并且在模拟教师网络输出和预测最终标签两个任务上做平衡。图2.3后验概率正则化与深度学习的一种结合[59]2.6.2后验概率正则化的常用场景后验概率正则化可以用于自然语言处理领域的各类任务。其中一个例子就是统计词对齐,这是由Zens等人在统计机器翻译任务中提出的[42],用于描述源句和翻译的目标句之间对应关系的方法。在词语对齐任务中,我们把目标句={1,…,,…,},源句={1,…,,…,}。一个词语对齐可以是一个矩阵,矩阵中的元素,表示目标句中的第个词是由源句中的第个词翻译而来。我们在各类词语对齐模型中可以定义下面两类先验知识作为约束,从而提升模型的性能:(1)双射性:一个词不能被翻译为多个单词。(2)相仿性:一个模型的对齐策略需要和其它的模型的对齐策略大致相近。
本文编号:3351871
【文章来源】:浙江大学浙江省 211工程院校 985工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
远程监督生成关系抽取样本示意
浙江大学硕士学位论文第2章国内外研究现状12如何使端到端的关系抽取模型不再拘泥于数据包内部,能够对数据包整体的质量进行考量成为近年来很多研究工作关注的重点,Yuan等人提出跨包注意力机制对数据包本身的质量进行建模[39],Feng等人利用强化学习训练样本选择策略[40],都有效地缓解了低质量数据包对关系抽取模型训练过程中的影响。图2.2低质量数据包示例2.6后验概率正则化框架全监督机器学习在自然语言处理,计算机视觉和计算生物学等诸多领域和任务上取得巨大成功。然而,全监督的机器学习往往需要大量与指定任务密切相关的标注数据集,构造这些数据集的代价非常高,我们使用这些全监督方法时成本也很高,比如在对一个小时的音频数据进行标注需要花费400小时,自然语言处理领域中文词性标注项目PennChineseTreebank在项目开始后两年才首次公开第一个版本的4000个句子。为了让模型能够取得更好的性能,对同一种任务,我们常常也需要针对不同领域构造不同的数据集。在数据匮乏的同时,我们常常又有一些与特定问题相关的经验知识,这些经验知识可以是人类专家的经验,也可以是人为总结的一些规则。然而,现在我们很难把这些经验知识融入到全监督的训练过程中。
浙江大学硕士学位论文第2章国内外研究现状14同时,后验正则化也可以和深度学习结合,使深度神经网络的参数能够编码这些先验知识,Hu等人提出利用知识蒸馏的方法[59],利用老师-学生的知识蒸馏学习框架,首先将经验知识通过后验概率正则化框架编码到老师网络中,具体可以用图2.3中的红色虚线表示,在每一轮迭代过程中,教师网络由学生网络通过投影到规则约束的子空间得到,学生网络更新自身的参数并且在模拟教师网络输出和预测最终标签两个任务上做平衡。图2.3后验概率正则化与深度学习的一种结合[59]2.6.2后验概率正则化的常用场景后验概率正则化可以用于自然语言处理领域的各类任务。其中一个例子就是统计词对齐,这是由Zens等人在统计机器翻译任务中提出的[42],用于描述源句和翻译的目标句之间对应关系的方法。在词语对齐任务中,我们把目标句={1,…,,…,},源句={1,…,,…,}。一个词语对齐可以是一个矩阵,矩阵中的元素,表示目标句中的第个词是由源句中的第个词翻译而来。我们在各类词语对齐模型中可以定义下面两类先验知识作为约束,从而提升模型的性能:(1)双射性:一个词不能被翻译为多个单词。(2)相仿性:一个模型的对齐策略需要和其它的模型的对齐策略大致相近。
本文编号:3351871
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3351871.html
最近更新
教材专著