特定领域实体属性关系抽取方法研究
本文选题:实体关系抽取 + Distant ; 参考:《昆明理工大学》2017年硕士论文
【摘要】:实体关系抽取是信息抽取的重要部分,它能够识别出实体之间的语义关系,作为语义网的基础,实体关系抽取被广泛应用在自动问答系统,信息检索,机器翻译等领域。关系抽取还是构建知识图谱的重要基础,随着万维网转变成语义网,知识图谱的构建变得尤为重要。领域实体间的属性关系是构建知识图谱的重要组成部分之一。对特定领域而言,领域实体属性关系对表达实体之间的语义关系有着重要的意义。本文主要针对中文领域的实体属性关系抽取,作了以下工作:(1)基于Distant Supervision(距离监督)的领域实体属性关系抽取方法,基于领域知识库和相关文本集来获取实体属性关系。关系类型为:景点-实例-属性值。针对旅游领域中的“景点”这个类型,抽取出与“景点”这个类型相关属性,如门票价格、面积等等。距离监督就是通过将知识库映射到文本集中实现关系抽取的过程,即如果一个实体对出现在知识库中,则将文本集中包含这两个实体的句子全部抽取出来,从这些句子中提取特征,训练分类器。本文首先构建一个小型的中文旅游领域知识库,在知识库中预先定义好属性关系和关系实例,并用这个知识库对应地从百度百科或维基百科网页上爬取得到的文本集。本文使用多种特征以提高分类器的性能,提高分类的性能。(2)基于卷积神经网络的领域实体属性关系抽取方法研究。本文提出基于卷积神经网络对领域实体属性关系进行抽取,其中属性关系类型为实例-属性、属性-属性值、实例-属性值。利用卷积神经网络的自动学习表征领域实体属性关系的句法特征、层级特征以及实体所在句子的文本特征,形成特征向量,加入到卷积神经网络中,训练实体属性关系分类模型。实验结果表明,所提出的方法能有效提高实体属性关系抽取性能。
[Abstract]:Entity relation extraction is an important part of information extraction, it can identify the semantic relationship between entities. As the basis of semantic web, entity relation extraction is widely used in the fields of automatic question and answer system, information retrieval, machine translation and so on.Relationship extraction is also an important basis for building knowledge atlas. With the transformation of the World wide Web into the semantic Web, the construction of knowledge atlas becomes particularly important.Attribute relationship among domain entities is one of the important components of building knowledge map.For a specific domain, the attribute relation of domain entity is of great significance to express the semantic relationship between entities.In this paper, we focus on the extraction of entity attribute relation in Chinese domain. We do the following work: 1) the domain entity attribute relation extraction method based on Distant Supervision. the domain knowledge base and related text set are used to obtain entity attribute relationship.The relationship type is: scenic spot-instance-property value.Aiming at the "scenic spot" type in the tourism field, the properties related to the "scenic spot" type, such as ticket price, area and so on, are extracted.Distance monitoring is the process of relational extraction by mapping the knowledge base to the text set, that is, if an entity pair appears in the knowledge base, the sentences that contain the two entities in the text set are extracted out.Extract features from these sentences and train classifiers.This paper first constructs a small knowledge base of Chinese tourism domain, defines the attribute relation and relation instance in the knowledge base, and uses this knowledge base to crawl the text set from Baidu encyclopedia or Wikipedia page.In this paper, we use a variety of features to improve the performance of classifiers and improve the performance of classification.In this paper, a convolution neural network is proposed to extract the attribute relation of domain entity, in which the type of attribute relation is instance attribute, attribute attribute value and instance attribute value.Using the automatic learning of convolution neural network to represent the syntactic feature, hierarchical feature and text feature of the entity attribute relation in the domain, the feature vector is formed and added to the convolution neural network.Training entity attribute relationship classification model.Experimental results show that the proposed method can effectively improve the performance of entity attribute extraction.
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1
【参考文献】
相关期刊论文 前10条
1 刘绍毓;李弼程;周杰;席耀一;唐浩浩;;基于主题模型的中文Distant Supervision噪声标注识别方法[J];信息工程大学学报;2016年03期
2 郭丽丽;丁世飞;;深度学习研究进展[J];计算机科学;2015年05期
3 欧阳丹彤;瞿剑峰;叶育鑫;;关系抽取中基于本体的远监督样本扩充[J];软件学报;2014年09期
4 吴嘉伟;关毅;吕新波;;基于深度学习的电子病历中实体关系抽取[J];智能计算机与应用;2014年03期
5 奚雪峰;周国栋;;基于Deep Learning的代词指代消解[J];北京大学学报(自然科学版);2014年01期
6 刘建伟;刘媛;罗雄麟;;玻尔兹曼机研究进展[J];计算机研究与发展;2014年01期
7 陈宇;郑德权;赵铁军;;基于Deep Belief Nets的中文名实体关系抽取[J];软件学报;2012年10期
8 刘兵;钱龙华;徐华;周国栋;;依存信息在蛋白质关系抽取中的作用[J];中文信息学报;2011年02期
9 雷春雅;郭剑毅;余正涛;毛存礼;张少敏;黄甫;;基于自扩展与最大熵的领域实体关系自动抽取[J];山东大学学报(工学版);2010年05期
10 李小红;钱龙华;;基于自举的弱指导中文实体关系抽取研究[J];高科技与产业化;2010年09期
相关硕士学位论文 前5条
1 孙勇亮;开放领域的中文实体无监督关系抽取[D];华东师范大学;2014年
2 康琪;基于Bootstrapping的领域知识自动抽取技术的研究[D];山东大学;2012年
3 王晶;无监督的中文实体关系抽取研究[D];华东师范大学;2012年
4 毛小丽;基于特征向量的实体间语义关系抽取研究[D];重庆大学;2011年
5 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
,本文编号:1773048
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/1773048.html