面向经济知识图谱构建中文关系抽取算法的研究与应用
发布时间:2021-02-04 16:18
随着信息化时代的高速发展,近些年来互联网技术得到了爆炸式的飞速发展,同时互联网在各行各业广泛普及应用,互联网上文本数据呈爆炸式增长。虽然互联网上海量的、多样的数据让人们获取知识变得更加容易,但是其中大量的无用的数据同样让人们高效准确地获取知识变得更加困难。人们迫切希望一种技术能够从海量的数据中抽取有用的知识,当人们需要某种知识时可以直接准确获取,而不需要人工筛选。知识图谱正是在这种情况下诞生的,知识图谱就是覆盖在海量数据上的知识网络结构,它从海量的数据中抽取有用的知识,以实体关系三元组的形式结构化呈现给用户,让人们可以快速准确地获取需要的知识,而实体关系抽取则是构建知识图谱的核心技术。因而,知识图谱和实体关系抽取从提出至今一直是热门研究方向,面向领域知识图谱研究实体关系抽取算法在学术上和工程上都有极大的价值和意义。本文首先介绍了知识图谱和实体关系抽取算法在国内外的发展历程和研究现状,然后分析了知识图谱和实体关系抽取的相关技术,接着在此基础上面向经济领域知识图谱深入研究实体关系抽取算法,并在已有的经典算法模型基础上进行优化改进,提出了本文改进的基于远程监督的实体关系抽取算法,最后将本文改...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:103 页
【学位级别】:硕士
【部分图文】:
百度智能搜索结果
电子科技大学硕士学位论文202.4.2自然语言处理工具语言技术平台(LTP)[57]是由哈工大社会计算与信息检索研究中心研发和推广的,是目前国内外最具影响力和最全面的中文自然语言处理平台,目前实现的功能主要包括分词、词性标注、命名实体识别、依存句法分析、语义角色标注和语义依存分析。例如,对句子“华为技术有限公司成立于1987年,总部位于中国广东省深圳市龙岗区。”进行LTP自然语言处理的全部操作,可视化结果如图所示。图2-5自然语言处理工具LTP使用例子2.5深度学习相关技术研究最早的神经网络其思想起源于1943年的MCP人工神经元模型[58],深度学习的概念也源于人工神经网络的研究。从1943年至今的研究中,神经网络的研究发展有过停滞不前的研究低谷,也有飞速发展的研究热潮。如今,随着硬件的提升,各种深度学习相关算法在医疗、金融、艺术以及无人驾驶等众多领域均取得了显著的成果,深度学习技术正处于新的研究热潮中。在自然语言处理领域,除了以往的CNN、RNN、LSTM等深度学习技术,还有最新的Attention机制以及Transformer框架。本文主要谈谈卷积神经网络和Attention机制。2.5.1卷积神经网络卷积神经网络(CNN)最开始是应用于计算机视觉中[59],但是随着研究者们在自然语言处理的各种任务中引入卷积神经网络,发现相较于传统方法,卷积神
电子科技大学硕士学位论文30图3-2华为技术有限公司百度百科词条页面的信息盒部分(2)工商信息部分工商信息部分是经济领域部分企业所特有的模块,是对词条所属知识的工商信息的列表展示,和信息盒一样,其固定格式为<关系,实体>,如图3-3所示为华为技术有限公司百度百科词条页面的工商信息部分。本文同样采用统一的格式模板对工商信息部分进行抽取,得到<词条,关系,实体>这样的实体关系三元组,例如<华为技术有限公司,法定代表人,赵明路>,工商信息部分为本文构建知识库的补充数据来源;图3-3华为技术有限公司百度百科词条页面的工商信息部分3.2.2经济领域知识库构建截至2019年8月,百度百科总共收录了一千六百万条词条,覆盖了现实世界中的各行各业,当然也包括了本文研究的经济领域。本文构建经济领域知识库的数据来源主要就是百度百科词条页面的信息盒与工商信息部分,由于本文经济领域主要是针对于企业和人物,同时为了保证采集数据的质量,本文采用人工构建了经济领域企业列表、人物列表以及对应的企业列表扩展词列表。最后,根据企业列表和人物列表,依次对列表中的企业词条和列表中的人物词条的百度百科词条页面进行网络爬虫,采集人物和企业相关的实体关系三元组,初步构建经济领
【参考文献】:
期刊论文
[1]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[2]融合多特征的基于远程监督的中文领域实体关系抽取[J]. 王斌,郭剑毅,线岩团,王红斌,余正涛. 模式识别与人工智能. 2019(02)
[3]中文实体关系抽取研究综述[J]. 武文雅,陈钰枫,徐金安,张玉洁. 计算机与现代化. 2018(08)
[4]远程监督人物关系抽取中的去噪研究[J]. 黄蓓静,贺樑,杨静. 计算机应用与软件. 2017(07)
[5]基于依存句法的实体关系抽取[J]. 周亮俊. 电子技术与软件工程. 2016(24)
[6]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[7]基于依存分析的开放式中文实体关系抽取方法[J]. 李明耀,杨静. 计算机工程. 2016(06)
[8]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[9]知识图谱的技术实现流程及相关应用[J]. 曹倩,赵一鸣. 情报理论与实践. 2015(12)
[10]基于开放网络知识的信息检索与数据挖掘[J]. 王元卓,贾岩涛,刘大伟,靳小龙,程学旗. 计算机研究与发展. 2015(02)
硕士论文
[1]基于文本挖掘的领域知识图谱构建方法的研究与实现[D]. 刘霄阳.北京交通大学 2019
[2]基于co-training与核函数的关系抽取技术研究[D]. 张一昌.北京邮电大学 2015
[3]开放领域的中文实体无监督关系抽取[D]. 孙勇亮.华东师范大学 2014
[4]实体关系自动抽取技术的比较研究[D]. 宁海燕.哈尔滨工业大学 2010
[5]基于图的半监督学习模型研究与分类器设计[D]. 郝建柏.中国科学技术大学 2009
本文编号:3018591
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:103 页
【学位级别】:硕士
【部分图文】:
百度智能搜索结果
电子科技大学硕士学位论文202.4.2自然语言处理工具语言技术平台(LTP)[57]是由哈工大社会计算与信息检索研究中心研发和推广的,是目前国内外最具影响力和最全面的中文自然语言处理平台,目前实现的功能主要包括分词、词性标注、命名实体识别、依存句法分析、语义角色标注和语义依存分析。例如,对句子“华为技术有限公司成立于1987年,总部位于中国广东省深圳市龙岗区。”进行LTP自然语言处理的全部操作,可视化结果如图所示。图2-5自然语言处理工具LTP使用例子2.5深度学习相关技术研究最早的神经网络其思想起源于1943年的MCP人工神经元模型[58],深度学习的概念也源于人工神经网络的研究。从1943年至今的研究中,神经网络的研究发展有过停滞不前的研究低谷,也有飞速发展的研究热潮。如今,随着硬件的提升,各种深度学习相关算法在医疗、金融、艺术以及无人驾驶等众多领域均取得了显著的成果,深度学习技术正处于新的研究热潮中。在自然语言处理领域,除了以往的CNN、RNN、LSTM等深度学习技术,还有最新的Attention机制以及Transformer框架。本文主要谈谈卷积神经网络和Attention机制。2.5.1卷积神经网络卷积神经网络(CNN)最开始是应用于计算机视觉中[59],但是随着研究者们在自然语言处理的各种任务中引入卷积神经网络,发现相较于传统方法,卷积神
电子科技大学硕士学位论文30图3-2华为技术有限公司百度百科词条页面的信息盒部分(2)工商信息部分工商信息部分是经济领域部分企业所特有的模块,是对词条所属知识的工商信息的列表展示,和信息盒一样,其固定格式为<关系,实体>,如图3-3所示为华为技术有限公司百度百科词条页面的工商信息部分。本文同样采用统一的格式模板对工商信息部分进行抽取,得到<词条,关系,实体>这样的实体关系三元组,例如<华为技术有限公司,法定代表人,赵明路>,工商信息部分为本文构建知识库的补充数据来源;图3-3华为技术有限公司百度百科词条页面的工商信息部分3.2.2经济领域知识库构建截至2019年8月,百度百科总共收录了一千六百万条词条,覆盖了现实世界中的各行各业,当然也包括了本文研究的经济领域。本文构建经济领域知识库的数据来源主要就是百度百科词条页面的信息盒与工商信息部分,由于本文经济领域主要是针对于企业和人物,同时为了保证采集数据的质量,本文采用人工构建了经济领域企业列表、人物列表以及对应的企业列表扩展词列表。最后,根据企业列表和人物列表,依次对列表中的企业词条和列表中的人物词条的百度百科词条页面进行网络爬虫,采集人物和企业相关的实体关系三元组,初步构建经济领
【参考文献】:
期刊论文
[1]CNNIC发布第44次《中国互联网络发展状况统计报告》[J]. 于朝晖. 网信军民融合. 2019(09)
[2]融合多特征的基于远程监督的中文领域实体关系抽取[J]. 王斌,郭剑毅,线岩团,王红斌,余正涛. 模式识别与人工智能. 2019(02)
[3]中文实体关系抽取研究综述[J]. 武文雅,陈钰枫,徐金安,张玉洁. 计算机与现代化. 2018(08)
[4]远程监督人物关系抽取中的去噪研究[J]. 黄蓓静,贺樑,杨静. 计算机应用与软件. 2017(07)
[5]基于依存句法的实体关系抽取[J]. 周亮俊. 电子技术与软件工程. 2016(24)
[6]知识图谱技术综述[J]. 徐增林,盛泳潘,贺丽荣,王雅芳. 电子科技大学学报. 2016(04)
[7]基于依存分析的开放式中文实体关系抽取方法[J]. 李明耀,杨静. 计算机工程. 2016(06)
[8]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[9]知识图谱的技术实现流程及相关应用[J]. 曹倩,赵一鸣. 情报理论与实践. 2015(12)
[10]基于开放网络知识的信息检索与数据挖掘[J]. 王元卓,贾岩涛,刘大伟,靳小龙,程学旗. 计算机研究与发展. 2015(02)
硕士论文
[1]基于文本挖掘的领域知识图谱构建方法的研究与实现[D]. 刘霄阳.北京交通大学 2019
[2]基于co-training与核函数的关系抽取技术研究[D]. 张一昌.北京邮电大学 2015
[3]开放领域的中文实体无监督关系抽取[D]. 孙勇亮.华东师范大学 2014
[4]实体关系自动抽取技术的比较研究[D]. 宁海燕.哈尔滨工业大学 2010
[5]基于图的半监督学习模型研究与分类器设计[D]. 郝建柏.中国科学技术大学 2009
本文编号:3018591
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3018591.html
最近更新
教材专著