面向知识图谱扩充的非结构化文本知识抽取研究
发布时间:2021-07-12 19:01
随着人工智能技术的快速发展,认知智能的重要性越来越凸显。特别地,知识图谱作为认知智能重要的技术手段,在搜索引擎、智能应用等场景日益展现其突破瓶颈的能力。然而,受限于知识覆盖率较低等问题,当前知识图谱难以广泛地在各个领域推广使用。互联网上存在丰富的非结构化文本,可以作为提升知识图谱覆盖率的重要知识来源。从非结构化文本抽取知识一直是自然语言处理研究中的难点和热点问题。已有的抽取方法或存在误差传播或包含人工特征选择的问题,使其具有一定的局限性,并且会为后期的知识图谱扩充带来许多额外的工作。基于以上背景,本论文主要针对知识图谱扩充的需求,研究以非结构化文本为对象的知识抽取方法,即从非结构化文本中抽取结构形式为{头实体,关系,尾实体}的知识三元组。传统的方法采用分步抽取的方式,面临着人工设计特征过于复杂、误差传播和信息冗余等问题。因此,综合考虑实体与关系的联合抽取方式成为新趋势,但其面对三元组构件重叠问题抽取效果仍不佳。为解决上述问题,本文的研究工作主要包括两部分:首先,本文提出了一种基于标记策略的多层语义结构的知识抽取方法。该方法是一种新的联合抽取方法,可协助解决知识构建的重叠问题。具体而言,...
【文章来源】:湘潭大学湖南省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
互联网上存在的不同结构的文本数据
的重要且必要的途径。非结构化文本灵活性强且没有明确的指示性标志,从非结构化文本中抽取知识是一个难点问题。幸运的是随着深度学习的发展,从非结构化文本中抽取知识的困难也所缓解。越来越多工作者致力于利用深度学习方法研究非结构化文本的知识抽龋所说的知识,通常可以被描述为三元组形式{头实体,关系,尾实体}。为了扩充知识图谱,从非结构化文本中抽取知识,具体是指在知识图谱中定义好的关系集合的约束下,从文本中抽取满足关系的知识,头实体和尾实体都是由文本中的词语组成,而关系词本身不要求出现在语句中。如图1.2所示,文本是“同为美国总统特朗普的女儿,蒂芙尼和伊万卡差别很大”,该文本中可以抽取的三元组包括:{特朗普,父母-女儿,伊万卡},{特朗普,父母-女儿,蒂芙尼},{伊万卡,姐妹,蒂芙尼}以及{美国,国家-总统,特朗普}。图1.2面向非结构化文本抽取知识三元组传统的三元组知识抽取采用分步走的方式,即将抽取三元组任务分为两个子任务:命名实体识别和关系抽龋早期的工作有Zelenko等人[4]和Chan等人[5],他们是先抽取实体再预测所有实体间的关系。由于分步的方法弱化了实体和关系间的联系,并且实体识别的误差会一直传播到关系分类阶段。现在流行一种联合抽取关系和实体的方式,可以充分利用实体与关系的语义信息,改善了传统抽取方法的现状。LiandJi[6],Matthew[7],Ren[8]等通过人工设计的特征将抽取实体和关系两步结合在一起,但是人工设计的特征会带来许多额外的工作。Zeng等人[9]提出PCNN模型,通过参数共享的方式联合抽取实体和关系,其依旧存在误差传播的问题。Miwaand
18文本中可以抽取出知识三元组,因此我们认为输入句子中的每一个词都对应着一些语义标签,该标签包含着三元组信息。其中,我们以标签“O”表示词是和三元组无关的词。除了标签“O”外,其它的标签都由三部分信息组成:词在实体中的位置信息,词对应的关系类型,词的关系角色。我们采用“BIES”四种符号表示词语在实体中的位置情况,其中“B”表示词语在实体的开头,“I”表示该词在实体的中间,“E”表示词语在实体的结束位置,“S”则表示当前词就是一个完整的实体。图3.1是本章节提出的标记策略说明,知识抽取结果通常以三元组的形式表示:{实体1,关系类型,实体2}。关系类型信息是基于预定义的关系类型集合得到,而关系角色是指当前词对应着三元组的哪一个实体。图中“CP”是关系类型“国家-总统”的缩写,而“PD”是关系类型“父母-女儿”的缩写。此处我们用数字1表示该词对应着“头实体”,用数字2表示该词属于“尾实体”。基于上述方式定义的标签个数为:Nt=2*4*|R|+1,其中|R|是指预定义关系类型的个数。图3.1解决三元组重叠的特殊标记策略由于每行标签序列只允许每个词有单独的标记,重叠三元组(如图1.2中{美国,国家-总统,特朗普}与{特朗普,父母-女儿,蒂芙尼}存在重叠的实体“特朗普”)不能全部被标记。因此为解决重叠三元组问题,本文将联合抽取三元组的任务转换成一个多序列标记问题,即一个句子可以存在多个标记序列,一定程度上解决重叠三元组问题。图3.2是展示了生成多行标签序列结果的示例。如图所示,输入句子包含四个三元组:{特朗普,父母-女儿,伊万卡},{特朗普,父母-女儿,蒂芙尼}和{美国,国家-总统,特朗普},{伊万卡,姐妹,蒂芙尼},其中“父母-女儿”和“国家-总统”是预定义的关系类型。单词“特朗普”,“美
【参考文献】:
期刊论文
[1]开放式文本信息抽取[J]. 赵军,刘康,周光有,蔡黎. 中文信息学报. 2011(06)
本文编号:3280478
【文章来源】:湘潭大学湖南省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
互联网上存在的不同结构的文本数据
的重要且必要的途径。非结构化文本灵活性强且没有明确的指示性标志,从非结构化文本中抽取知识是一个难点问题。幸运的是随着深度学习的发展,从非结构化文本中抽取知识的困难也所缓解。越来越多工作者致力于利用深度学习方法研究非结构化文本的知识抽龋所说的知识,通常可以被描述为三元组形式{头实体,关系,尾实体}。为了扩充知识图谱,从非结构化文本中抽取知识,具体是指在知识图谱中定义好的关系集合的约束下,从文本中抽取满足关系的知识,头实体和尾实体都是由文本中的词语组成,而关系词本身不要求出现在语句中。如图1.2所示,文本是“同为美国总统特朗普的女儿,蒂芙尼和伊万卡差别很大”,该文本中可以抽取的三元组包括:{特朗普,父母-女儿,伊万卡},{特朗普,父母-女儿,蒂芙尼},{伊万卡,姐妹,蒂芙尼}以及{美国,国家-总统,特朗普}。图1.2面向非结构化文本抽取知识三元组传统的三元组知识抽取采用分步走的方式,即将抽取三元组任务分为两个子任务:命名实体识别和关系抽龋早期的工作有Zelenko等人[4]和Chan等人[5],他们是先抽取实体再预测所有实体间的关系。由于分步的方法弱化了实体和关系间的联系,并且实体识别的误差会一直传播到关系分类阶段。现在流行一种联合抽取关系和实体的方式,可以充分利用实体与关系的语义信息,改善了传统抽取方法的现状。LiandJi[6],Matthew[7],Ren[8]等通过人工设计的特征将抽取实体和关系两步结合在一起,但是人工设计的特征会带来许多额外的工作。Zeng等人[9]提出PCNN模型,通过参数共享的方式联合抽取实体和关系,其依旧存在误差传播的问题。Miwaand
18文本中可以抽取出知识三元组,因此我们认为输入句子中的每一个词都对应着一些语义标签,该标签包含着三元组信息。其中,我们以标签“O”表示词是和三元组无关的词。除了标签“O”外,其它的标签都由三部分信息组成:词在实体中的位置信息,词对应的关系类型,词的关系角色。我们采用“BIES”四种符号表示词语在实体中的位置情况,其中“B”表示词语在实体的开头,“I”表示该词在实体的中间,“E”表示词语在实体的结束位置,“S”则表示当前词就是一个完整的实体。图3.1是本章节提出的标记策略说明,知识抽取结果通常以三元组的形式表示:{实体1,关系类型,实体2}。关系类型信息是基于预定义的关系类型集合得到,而关系角色是指当前词对应着三元组的哪一个实体。图中“CP”是关系类型“国家-总统”的缩写,而“PD”是关系类型“父母-女儿”的缩写。此处我们用数字1表示该词对应着“头实体”,用数字2表示该词属于“尾实体”。基于上述方式定义的标签个数为:Nt=2*4*|R|+1,其中|R|是指预定义关系类型的个数。图3.1解决三元组重叠的特殊标记策略由于每行标签序列只允许每个词有单独的标记,重叠三元组(如图1.2中{美国,国家-总统,特朗普}与{特朗普,父母-女儿,蒂芙尼}存在重叠的实体“特朗普”)不能全部被标记。因此为解决重叠三元组问题,本文将联合抽取三元组的任务转换成一个多序列标记问题,即一个句子可以存在多个标记序列,一定程度上解决重叠三元组问题。图3.2是展示了生成多行标签序列结果的示例。如图所示,输入句子包含四个三元组:{特朗普,父母-女儿,伊万卡},{特朗普,父母-女儿,蒂芙尼}和{美国,国家-总统,特朗普},{伊万卡,姐妹,蒂芙尼},其中“父母-女儿”和“国家-总统”是预定义的关系类型。单词“特朗普”,“美
【参考文献】:
期刊论文
[1]开放式文本信息抽取[J]. 赵军,刘康,周光有,蔡黎. 中文信息学报. 2011(06)
本文编号:3280478
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3280478.html
最近更新
教材专著