常识性因果知识库构建
发布时间:2021-01-08 23:20
常识性因果推理在人工智能领域是一个十分具有挑战性的问题,它在人们日常行为及决策中扮演着重要角色。因果推理基于对现实生活中各种事件或行为及其之间的相关关系的深入理解。这些事件或行为在文本中通常表现为单词、短语或句子。因果关系通常由原因和结果两个部分组成,在文本数据中通常体现为文本片段。然而事件及因果关系都蕴含在自然语言语料中,必须经过处理和分析才能得到其中有价值的知识。常识性因果知识,一方面因为被人熟知而具有强大的潜在推理能力,另一方面因为其在语料中的稀疏性、歧义性和隐晦性很难被直接获取。本论文研究的常识性因果推理主要是对普通知识(常识)所蕴含的因果关系及因果语义进行的深入解析。这种解析包括常识性因果关系的检测、识别与提取,并能够在此基础上判断事件之间是否有潜在的因果关系。我们将建立两种不同的因果知识库来帮助解决因果推理任务。第一是直接建立具有因果关系强度的大规模因果网络作为常识性因果关系知识库(CausalNet)。这个知识库主要基于传统的频率统计、条件概率方法。在知识库中,单词作为节点,节点之间由具有方向性的边相连,边上的权重即为起点原因到终点结果之间的因果强度。第二是学习因果词向量...
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
–1句法分析示例
图 3–1 因果词对在因果提示词上的分布为了验证因果提示词的质量,我们标注了 ConceptNet 中的因果事件作为正确的标准(groundtruth)。ConceptNet 4 中含有 74336 个没有还原成原始形态的英文单词,一共有 375135 个独立的概念,概念之间共有 610397 个表示不同关系的边。我们仅提取了其中由 “Causes”,“CausesDesire” 和“HasPrerequisite” 等关连接的 52778 个因果关系词对。在 ConceptNet 中,每一个因果词对还对应着志愿者们的投票,其中正向投票被标注为正样本(例如因果对(listen to musicc , relaxe )),负向投票的被标注为负样本(例如因果对 (listen to musicc, soda cane))因为在 ConceptNet 中的因果事件不都是用单词表示,有时以词组的形式出现。我们考虑因果对(x, y)(其中 x,y 均为文本片段)被一个因果提示词抽取到的前提是,至少 x 中有一个单词 u、y 中有一个单词 v 被作为原因和结果被该提示词抽取出来。我们绘制了不同的因果提示词对于 ConceptNet中的正负样本的抽取情况,如图 3–2。图中,左边蓝色的条状表示该因果提示词抽取了占比多少的正样本;右边的橘色条状表示该因果提示词抽取了占比多少的负样本。显然,我们希望能够抽取的正样本越多越好,负样本越少越好。图 3–2 表明,我们的因果提示词可以有效的把 ConceptNet 中的正负样本区分开来。对于因果提示词 “hence” 和 “consequence” 表现一般是由于它们抽取的主要为粗粒
图 3–2 因果提示词针对 ConceptNet 中正负因果样本的抽取情况set)各 500 个。COPA 数据集的例子可见例 4和例 2。这个数据集的两个选项被人为设置得十分接近,使这项任务很难用传统的相关性方法来解决。我们首先用 500 个校正集的句子来训练公式 2–13中的λ,再在测试集上进行测试。为了显示因果关系网络的优越性,我们将我们的方法与之间最优秀的 PMI 的方法进行比较。传统 PMI 方法并不考虑因果知识的存在,而简单的采用相关关系来代替因果关系。他们仅考虑在一定的滑窗内,两个单词同时出现的频率。为了保持比较的一致性,对于 PMI 的方法,我们考虑采用共生词对,对于 CausalNet 的方法,我们考虑采用因果共生词对。在计算句间因果强度的时候,我们采用章节 2.5.1中提到的全匹配算法,即:CSallp(A, B) =1A + B∑c A∑e BCS(c, e)在训练的过程中,对于采用因果共生词对计算因果强度时,λ取 0.9 和 1.0 获得了同样好的结果;而采用 PMI 工程词对计算因果强度时,λ 取 0.5 效果更好。表格 3–3显示在 CausalNet 和其他方法在
本文编号:2965503
【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
–1句法分析示例
图 3–1 因果词对在因果提示词上的分布为了验证因果提示词的质量,我们标注了 ConceptNet 中的因果事件作为正确的标准(groundtruth)。ConceptNet 4 中含有 74336 个没有还原成原始形态的英文单词,一共有 375135 个独立的概念,概念之间共有 610397 个表示不同关系的边。我们仅提取了其中由 “Causes”,“CausesDesire” 和“HasPrerequisite” 等关连接的 52778 个因果关系词对。在 ConceptNet 中,每一个因果词对还对应着志愿者们的投票,其中正向投票被标注为正样本(例如因果对(listen to musicc , relaxe )),负向投票的被标注为负样本(例如因果对 (listen to musicc, soda cane))因为在 ConceptNet 中的因果事件不都是用单词表示,有时以词组的形式出现。我们考虑因果对(x, y)(其中 x,y 均为文本片段)被一个因果提示词抽取到的前提是,至少 x 中有一个单词 u、y 中有一个单词 v 被作为原因和结果被该提示词抽取出来。我们绘制了不同的因果提示词对于 ConceptNet中的正负样本的抽取情况,如图 3–2。图中,左边蓝色的条状表示该因果提示词抽取了占比多少的正样本;右边的橘色条状表示该因果提示词抽取了占比多少的负样本。显然,我们希望能够抽取的正样本越多越好,负样本越少越好。图 3–2 表明,我们的因果提示词可以有效的把 ConceptNet 中的正负样本区分开来。对于因果提示词 “hence” 和 “consequence” 表现一般是由于它们抽取的主要为粗粒
图 3–2 因果提示词针对 ConceptNet 中正负因果样本的抽取情况set)各 500 个。COPA 数据集的例子可见例 4和例 2。这个数据集的两个选项被人为设置得十分接近,使这项任务很难用传统的相关性方法来解决。我们首先用 500 个校正集的句子来训练公式 2–13中的λ,再在测试集上进行测试。为了显示因果关系网络的优越性,我们将我们的方法与之间最优秀的 PMI 的方法进行比较。传统 PMI 方法并不考虑因果知识的存在,而简单的采用相关关系来代替因果关系。他们仅考虑在一定的滑窗内,两个单词同时出现的频率。为了保持比较的一致性,对于 PMI 的方法,我们考虑采用共生词对,对于 CausalNet 的方法,我们考虑采用因果共生词对。在计算句间因果强度的时候,我们采用章节 2.5.1中提到的全匹配算法,即:CSallp(A, B) =1A + B∑c A∑e BCS(c, e)在训练的过程中,对于采用因果共生词对计算因果强度时,λ取 0.9 和 1.0 获得了同样好的结果;而采用 PMI 工程词对计算因果强度时,λ 取 0.5 效果更好。表格 3–3显示在 CausalNet 和其他方法在
本文编号:2965503
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2965503.html