基于网络媒体的人物关系分析方法研究
发布时间:2021-01-18 23:33
人物关系分析主要研究如何有效地、自动地从海量数据中抽取出结构化的人物关系,对构建人物知识图谱、人物搜索引擎等系统有着重要的作用。相比于结构化文本,网络媒体中更多存储的是非结构化自然语言文本,因此如何从非结构化文本中提取出人物的相关属性,进而分析人物关系成为了热点研究问题。目前,基于网络媒体人物关系分析方法面临如下挑战:抽取人物属性需要大量的标注数据作为支撑,人物关系标注数据的匮乏是目前面临的一大难题;另外在深度学习中使用注意力机制能够使关系抽取的性能得到进一步的提升,但是现有的注意力机制通常关注句子级等低层次的语义特征,缺乏对整个关系的全局语义信息的关注。针对基于深度学习的人物关系分析面临的语料搜集困难和注意力机制有待改进两个问题,本文提出基于远程监督数据集增广和去噪方法以及多层级注意力机制方法对网络媒体中与人物相关的无结构文本进行研究。主要工作如下:(1)针对于人物领域实体关系标注数据较为匮乏的问题,本文提出了一种借助Web表格扩充现有知识库的实体对,并采取远程监督的方法自动获得大量的标注数据集的数据增广方法。该方法利用Wikipedia中的表格,将NYT训练集人物相关部分数据集进行...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
注意力本质思想图
第二章相关理论基础和技术17图2-8开放信息提取示意图开放信息提取技术(theOpenInformationExtraction,OpenIE)是指在无需预先指定关系模式的情况下,从纯文本中提取结构化关系三元组。StanfordCoreNLP系统首先将句子拆分成组,随后,将各组尽可能地缩短,从而生成一组短句片段;最后将这些片段分割成OpenIE三元组,并由系统输出。例如:“巴拉克·奥巴马出生在夏威夷。”可创建出三元组:(巴拉克·奥巴马;出生在;夏威夷),对应的开放域关系为“出生在”。系统首先将每个句子拆分成一组子句,接着竭尽所能地将这些子句缩短,从而产生一系列更加短的句子片段。最后系统输出由这些句子片段分割而生成的OpenIE三元组。示例图2-8给出了该过程的说明。(2)TensorflowTensorFlow是一个端到端的开源机器学习平台。它具有由工具,库和社区资源组成的全面而灵活的生态系统,使研究人员可以提高机器学习的最新水平,并允许开发人员轻松构建和部署由机器学习提供支持的应用程序。大家可以通过TensorFlow可以轻松地构建模型,在EagerExecution中使用Keras等直观的高阶API轻松地构建和训练机器学习模型,EagerExecution使我们能够快速迭代模型并轻松地调试模型。再者,您只需要定义预测模型的结构,将此结构与目标函数结合,添加数据,TensorFlow将自动为您计算相关的微分导数。仅通过扩展图形即可完成变量相对于其他变量的导数计算,因此您始终可以准确看到正在发生的事情。TensorFlow还是一个简单而灵活的架构,可以更快地将新想法从概念转化为代码,十分地便利。(3)ScrapyScrapy是一个开源的网络爬虫框架,适用于快速地异步爬取网页信息,拥有着支持xpath和强大日志系统等优点。Scrapy的优点在于其实质上只是一个框架,我们可以根据需要任
电子科技大学硕士学位论文24图3-2维基网页中的Mr.BasketballUSAWinners表图我们注意到由于表格的半结构性质,主体实体通常可以通过相同的关系与话题实体相连接,更进一步的是,表的非主体列通常与主体列具有某种二元关系或是主体列的一种属性。甚者同一列中的其余实体与其对应的主体实体具有共同的关系。如图3-3所示,“Mr.BasketballUSAWinners”是表格的话题实体,表格的第二列为主体列即“Mr.BasketballUSAWinners”的一系列的获奖者,第三列以及第四列就是谈及高中学校以及城市的主体实体。因此,我们基于如上发现提出了获取新实体对的表格理解方法,判断某表格中任一实体对(,)是否为原始实体对(h,t)的目标实体对的准则如下:·实体h和实体是同一话题实体而且实体t和实体属于主体实体,即=∈,∈;·实体h或者实体t是主体实体,同时实体h和在表格中同一列而且实体h和t在表格同一行。形式上,我们将符合以上任意条件的Web表格中的实体对都称作目标实体对,用于后续通过远程监督算法获取新的训练数据增广数据集。3.3.2基于Web表格数据集增广流程在前一小节中,我们已经对如何利用Web中的表格提取新的关系实体对进行了介绍,本节将对如何根据表格理解方法来获取新的训练数据扩充本文数据集进行展开介绍。基于Web表格增广数据集需要两个步骤:首先利用表格理解方法获取与知识库中实体对有相同关系的表格实体对。然后使用远程监督方法,以新实体对和文本
本文编号:2985876
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:85 页
【学位级别】:硕士
【部分图文】:
注意力本质思想图
第二章相关理论基础和技术17图2-8开放信息提取示意图开放信息提取技术(theOpenInformationExtraction,OpenIE)是指在无需预先指定关系模式的情况下,从纯文本中提取结构化关系三元组。StanfordCoreNLP系统首先将句子拆分成组,随后,将各组尽可能地缩短,从而生成一组短句片段;最后将这些片段分割成OpenIE三元组,并由系统输出。例如:“巴拉克·奥巴马出生在夏威夷。”可创建出三元组:(巴拉克·奥巴马;出生在;夏威夷),对应的开放域关系为“出生在”。系统首先将每个句子拆分成一组子句,接着竭尽所能地将这些子句缩短,从而产生一系列更加短的句子片段。最后系统输出由这些句子片段分割而生成的OpenIE三元组。示例图2-8给出了该过程的说明。(2)TensorflowTensorFlow是一个端到端的开源机器学习平台。它具有由工具,库和社区资源组成的全面而灵活的生态系统,使研究人员可以提高机器学习的最新水平,并允许开发人员轻松构建和部署由机器学习提供支持的应用程序。大家可以通过TensorFlow可以轻松地构建模型,在EagerExecution中使用Keras等直观的高阶API轻松地构建和训练机器学习模型,EagerExecution使我们能够快速迭代模型并轻松地调试模型。再者,您只需要定义预测模型的结构,将此结构与目标函数结合,添加数据,TensorFlow将自动为您计算相关的微分导数。仅通过扩展图形即可完成变量相对于其他变量的导数计算,因此您始终可以准确看到正在发生的事情。TensorFlow还是一个简单而灵活的架构,可以更快地将新想法从概念转化为代码,十分地便利。(3)ScrapyScrapy是一个开源的网络爬虫框架,适用于快速地异步爬取网页信息,拥有着支持xpath和强大日志系统等优点。Scrapy的优点在于其实质上只是一个框架,我们可以根据需要任
电子科技大学硕士学位论文24图3-2维基网页中的Mr.BasketballUSAWinners表图我们注意到由于表格的半结构性质,主体实体通常可以通过相同的关系与话题实体相连接,更进一步的是,表的非主体列通常与主体列具有某种二元关系或是主体列的一种属性。甚者同一列中的其余实体与其对应的主体实体具有共同的关系。如图3-3所示,“Mr.BasketballUSAWinners”是表格的话题实体,表格的第二列为主体列即“Mr.BasketballUSAWinners”的一系列的获奖者,第三列以及第四列就是谈及高中学校以及城市的主体实体。因此,我们基于如上发现提出了获取新实体对的表格理解方法,判断某表格中任一实体对(,)是否为原始实体对(h,t)的目标实体对的准则如下:·实体h和实体是同一话题实体而且实体t和实体属于主体实体,即=∈,∈;·实体h或者实体t是主体实体,同时实体h和在表格中同一列而且实体h和t在表格同一行。形式上,我们将符合以上任意条件的Web表格中的实体对都称作目标实体对,用于后续通过远程监督算法获取新的训练数据增广数据集。3.3.2基于Web表格数据集增广流程在前一小节中,我们已经对如何利用Web中的表格提取新的关系实体对进行了介绍,本节将对如何根据表格理解方法来获取新的训练数据扩充本文数据集进行展开介绍。基于Web表格增广数据集需要两个步骤:首先利用表格理解方法获取与知识库中实体对有相同关系的表格实体对。然后使用远程监督方法,以新实体对和文本
本文编号:2985876
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2985876.html
最近更新
教材专著