面向语义推理的多视角学术知识图谱构建方法研究与应用
发布时间:2021-10-09 03:37
知识是人类创新的发展力。人们在实践中发现、研究知识并且创新知识,人类通过知识不断地改造社会。如今,网络世界的信息纷繁复杂,许多冗余、重复的信息干扰了人们的视线,因此,让学术人员快速、准确地定位到其感兴趣的知识是一项十分重要的任务。搜索与推荐可以帮助人们实现这一目标。但是,以往的搜索与推荐一般只是从统计的角度出发,经常被点击的项目具有更高的权重,而并不是从人类理解的角度出发,真正得到语义相关的知识。知识图谱的出现使这一问题迎刃而解。知识图谱将网络上的实体整合成一个语义网络,通过在知识图谱上的路径推理,系统可以将真正语义上有紧密联系的实体展示出来。在学术研究领域,学术论文是人们获取知识的中心来源,而学术论文以解决学术问题为宗旨。为了解决各种各样的问题,创新性的方法也是论文的主要贡献。由此可见,问题与方法都是理解论文的不同角度。从前,很少有人将论文的问题及方法抽取出来作为知识图谱中的节点,而如何从非结构化文本中抽取出这两种实体也是一个难点。与此同时,一般的实体抽取算法需要大量标注数据,这在大数据量的情况下十分损耗人力物力。因此,本文的目标是用少量标注数据完成大数据量下的问题及方法抽取,并构建...
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
学术知识图谱
第2章相关工作及算法描述92.4.1基于统计机器学习的命名实体识别方法命名实体抽取可理解为对文章中的关键词进行分类,也可理解为是一种序列标注问题,即输入一个句子,判断每一个单词其所属标签及在标签当中的位置。基于机器学习的方法包括:隐马尔科夫模型(HiddenMarkovModel,HMM)[28]、条件随机场模型(Conditionrandomfield,CRF)[29]、支持向量机(SupportVectorMachine,SVM)[30]等等。早期,有很多命名实体识别任务采用隐马尔科夫模型和条件随机场模型来解决。隐马尔科夫模型中,有五个基本输入{N,M,A,B,π}。其中,N表示每一个词语的标注,M表示每一个单词本身,A是一个概率矩阵,表示从当前标注状态转到下一个标注状态的概率,B表示观测概率矩阵,是指在某个特定的标签下生成某个单词的概率,是初始概率矩阵,π表示每一个单词被初始化标注的概率。从语料库中统计出这些数据矩阵,然后将上述信息输入至维特比(viterbi)算法,就可以生成每个词语所对应的标签。与生成式概率图模型HMM不同的是,条件随机场模型是一种判别式概率图模型。它的目标是在给定一个输入序列情况下求使目标函数最大化的输出序列。图2.1条件随机场模型给定一个序列X{…},假如序列Y{…}的条件概率PYtX满足下列公式[29]的条件:PX……PtX····················(2.9)那么已知X的条件下Y的概率PYtX满足条件随机常条件随机场能够判别全局最优解。基于统计的方法需要大量的语料库做训练数据,这制约了该类方法的性能。
第2章相关工作及算法描述102.4.2基于神经网络的命名实体抽取近年来,神经网络在各个学术领域大放异彩,在自然语言处理领域也有着显著的表现。利用神经网络进行序列标注问题可以分为几个步骤:(1)学习每一个单词的向量表示。(2)将单词序列的向量表示输入到神经网络模型中,来学习句子的特征。(3)将神经网络模型得到的特征表示输入到softmax函数中,得到每个单词的预测标签。较早时期有研究使用神经网络进行命名实体识别,采用不同的窗口大小来进行预测,一种窗口是只包括当前单词的上下文,另一种窗口是整个句子,对每个单词加入位置信息。然后使用卷积神经网络+条件随机场来得到最终的特征,而针对单词级别的窗口和句子级别的窗口分别使用两种不同的预测函数,取得了性能的提升。Lample等人结合长短期记忆网络(LSTM)和条件随机场(CRF)解决序列标注的问题。由于LSTM有长期记忆的能力,所以将LSTM融入命名实体识别模型中会带来性能的改善。首先将句子映射到低维向量空间中,使用双向LSTM作为编码器,编码序列的长短期特征,得到每个单词的序列特征,然后将其输入到解码器的条件随机场模型中。已知编码到的信息,通过条件随机场预测隐藏状态的序列信息,会得到比单独应用这两种模型更强的效果[31]。模型如图2.2所示。图2.2基于图神经网络的命名实体识别模型
本文编号:3425557
【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
学术知识图谱
第2章相关工作及算法描述92.4.1基于统计机器学习的命名实体识别方法命名实体抽取可理解为对文章中的关键词进行分类,也可理解为是一种序列标注问题,即输入一个句子,判断每一个单词其所属标签及在标签当中的位置。基于机器学习的方法包括:隐马尔科夫模型(HiddenMarkovModel,HMM)[28]、条件随机场模型(Conditionrandomfield,CRF)[29]、支持向量机(SupportVectorMachine,SVM)[30]等等。早期,有很多命名实体识别任务采用隐马尔科夫模型和条件随机场模型来解决。隐马尔科夫模型中,有五个基本输入{N,M,A,B,π}。其中,N表示每一个词语的标注,M表示每一个单词本身,A是一个概率矩阵,表示从当前标注状态转到下一个标注状态的概率,B表示观测概率矩阵,是指在某个特定的标签下生成某个单词的概率,是初始概率矩阵,π表示每一个单词被初始化标注的概率。从语料库中统计出这些数据矩阵,然后将上述信息输入至维特比(viterbi)算法,就可以生成每个词语所对应的标签。与生成式概率图模型HMM不同的是,条件随机场模型是一种判别式概率图模型。它的目标是在给定一个输入序列情况下求使目标函数最大化的输出序列。图2.1条件随机场模型给定一个序列X{…},假如序列Y{…}的条件概率PYtX满足下列公式[29]的条件:PX……PtX····················(2.9)那么已知X的条件下Y的概率PYtX满足条件随机常条件随机场能够判别全局最优解。基于统计的方法需要大量的语料库做训练数据,这制约了该类方法的性能。
第2章相关工作及算法描述102.4.2基于神经网络的命名实体抽取近年来,神经网络在各个学术领域大放异彩,在自然语言处理领域也有着显著的表现。利用神经网络进行序列标注问题可以分为几个步骤:(1)学习每一个单词的向量表示。(2)将单词序列的向量表示输入到神经网络模型中,来学习句子的特征。(3)将神经网络模型得到的特征表示输入到softmax函数中,得到每个单词的预测标签。较早时期有研究使用神经网络进行命名实体识别,采用不同的窗口大小来进行预测,一种窗口是只包括当前单词的上下文,另一种窗口是整个句子,对每个单词加入位置信息。然后使用卷积神经网络+条件随机场来得到最终的特征,而针对单词级别的窗口和句子级别的窗口分别使用两种不同的预测函数,取得了性能的提升。Lample等人结合长短期记忆网络(LSTM)和条件随机场(CRF)解决序列标注的问题。由于LSTM有长期记忆的能力,所以将LSTM融入命名实体识别模型中会带来性能的改善。首先将句子映射到低维向量空间中,使用双向LSTM作为编码器,编码序列的长短期特征,得到每个单词的序列特征,然后将其输入到解码器的条件随机场模型中。已知编码到的信息,通过条件随机场预测隐藏状态的序列信息,会得到比单独应用这两种模型更强的效果[31]。模型如图2.2所示。图2.2基于图神经网络的命名实体识别模型
本文编号:3425557
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3425557.html
最近更新
教材专著