基于依存关系与词激活力的关系触发词提取与优化

发布时间:2021-06-30 13:37
  随着互联网的不断发展与大数据时代的到来,每天都有大量数据的产生,人们需要从这些数据中提取有价值的数据。作为信息抽取的子任务之一,关系抽取通过从数据中提取实体对及其相互关系而广泛应用在搜索引擎等领域中,是大数据时代的重要技术之一。关系触发词作为文本数据中表述实体关系的单词或短语在关系抽取中起重要作用,充分利用其关系特征有助于提高关系抽取的准确率。传统的关系触发词提取方法仅能提取触发某种关系类型的触发词,得到的触发词未必能触发给定实体对的关系。有的关系触发词提取方法能够提取给定实体对的关系触发词,但仅适用于单词型的关系触发词。对于短语型关系触发词,这类方法得到的触发词并不完整。本文利用依存句法分析与词激活力模型,将完整的关系触发词提取划分成核心触发词提取与非核心触发词提取两个阶段,结合两个阶段得到的核心触发词与非核心触发词作为最终的关系触发词。本文提出的方法取得了很好的关系触发词提取结果。在核心触发词提取阶段,使用依存句法分析计算依存距离来评估单词在依存关系图中到实体对的距离,计算序列距离来判断单词在原始单词序列中与实体对的相对位置。结合依存距离与序列距离计算评估分数,根据评估分数与单词词... 

【文章来源】:吉林大学吉林省 211工程院校 985工程院校 教育部直属院校

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于依存关系与词激活力的关系触发词提取与优化


单词三元组的入链与出链[29]

格式,数据,数据集,类别


第5章SDWAF相关实验表5.1SemEval2010Task8数据集的关系类别与数据量关系类别数据量(训练集+测试集)Cause-Effect1003+328Instrument-Agency504+156Product-Producer717+231Content-Container540+192Entity-Origin716+258Entity-Destination845+292Component-Whole941+312Member-Collection690+233Message-Topic634+261Other1410+45446"<e1>Adults</e1>use<e2>drugs</e2>forthispurpose."Instrument-AgencyComment:实体1实体2关系类别注解图5.1SemEval2010Task8数据集的数据格式评估SDWAF的关系触发词提取准确度需要数据集包含准确的关系触发词。对此,本文从SemEval2010Task8数据集中选择2000个关系实例,人工标注其关系触发词并将标注好的数据存储到MySQL数据库中,之后从数据库中读取数据进行相关实验。数据库中的部分数据与其结构如图5.2所示。图5.2标注好的数据与格式纽约时报数据集(NewYorkTimes,NYT)包含150余篇来自纽约时报的商业文章。该数据集使用StanfordCoreNLP工具进行命名实体识别得到实体对标记,其数据格式与SemEval2010Task8数据集类似。与SemEval2010Task8数据集相比,NYT数据集包含更多的关系实例并广泛应用于开放式关系抽取任务中。我们剔除NYT数据集中句子过长的数据,得到了10万多关系实例用于验证SDWAF在大规模数据下的触发词提取效率。29

三元组,可视,取值


第5章SDWAF相关实验部分关系三元组进行了直观地展示,其中绝大部分关系触发词都能反映出实体对的相互关系,表明SDWAF提取关系触发词较为准确,同时说明关系触发词可以作为关系描述词应用在开放式关系抽取中。图5.12关系三元组可视化5.4本章小结本章通过实验对SDWAF的性能进行了验证与评估。利用不同的取值进行实验确定了参数的最佳取值。使用不同的取值进行实验验证了对其取值的推测。与基于图的关系触发词提取方法进行对比,确定SDWAF的优势。分别用SDWAF的StanfordCoreNLP工具数据处理部分、非核心触发词提取阶段以及完整的SDWAF优化前后的程序进行实验,确定优化对算法性能的提升。在大规模数据下比较SDWAF单机与集群的性能,说明MPI技术能够使SDWAF适应大数据环境。通过在Bi-LSTM模型中加入关系触发词特征验证了关系触发词在关系抽取中的指导作用。对关系三元组的可视化直观地体现SDWAF的关系触发词提取的准确度以及关系触发词在开放式关系抽取中的应用。44

【参考文献】:
期刊论文
[1]Syntactic word embedding based on dependency syntax and polysemous analysis[J]. Zhong-lin YE,Hai-xing ZHAO.  Frontiers of Information Technology & Electronic Engineering. 2018(04)
[2]无监督实体关系触发词词典自动构建[J]. 刘绍毓,席耀一,李弼程,唐永旺,陈刚.  计算机应用与软件. 2016(05)
[3]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光.  计算机研究与发展. 2016(03)
[4]基于语义的中文事件触发词抽取联合模型[J]. 李培峰,周国栋,朱巧明.  软件学报. 2016(02)
[5]基于词激活力的自动词发现[J]. 张永田,徐蔚然,汪浩.  软件. 2012(12)
[6]基于依存句法的博文情感倾向分析研究[J]. 冯时,付永陈,阳锋,王大玲,张一飞.  计算机研究与发展. 2012(11)
[7]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正.  计算机应用研究. 2012(08)
[8]语言技术平台[J]. 刘挺,车万翔,李正华.  中文信息学报. 2011(06)

博士论文
[1]实体关系抽取算法研究[D]. 张春云.北京邮电大学 2015

硕士论文
[1]基于图结构的实体关系抽取方法研究[D]. 谢文慧.吉林大学 2019



本文编号:3257844

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3257844.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户4dd1e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com