面向企业图谱的实体链接技术的研究
发布时间:2021-07-06 12:28
在这个信息爆炸的时代,网上蕴含着海量的有价值的企业信息,但是这些信息大多分散在不同的网站,这就导致这些数据缺乏层次性和逻辑性,不同网站的数据集之间很难实现数据的自动关联,所以对信息的智能化和规范化处理显得尤为重要。本文研究的实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。根据有监督实体链接算法的三个步骤:命名实体识别、候选实体的生成和候选实体消歧,设计了一个实体链接系统,并利用该系统成功构建了一个企业领域的知识图谱。论文的具体工作可以归纳如下:(1)选择维基百科中文版、百度百科和互动百科作为背景知识库来构建多源知识库,使用基于Att-BiLSTM-CRF中文命名实体识别模型来获得实体指称,提出了一种结合上下文匹配策略和知识库信息检索策略的实体指称扩展方法,最后生成了一个具备高召回率和高准确率的候选实体集合。(2)提出了两种融合神经网络和余弦相似度的候选实体排序算法,提出了空实体判定方法。设计不同场景对比实验,结果表明,选择融合CNN和余弦相似度的候选实体排序算法,并添加空实体判定方法得到的候选实体消歧算法效果最优。(3)结合上述候选实体生成算法和候选实体排序算法作为本文...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
“马云”的新闻一则
东南大学硕士学位论文8图2-2阿里巴巴集团创始人“马云”的百度百科页面图2-3百度百科知识库中所有名为“马云”的实体2.1.2实体链接的算法分类实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。多样性是指实体可能存在多种形式,比如缩写、中英文、全称、昵称等。歧义性是指文本中出现的实体可能指代多个标准实体,但是这些标准实体之间不存在关系,会造成歧义。缺失性是指如果知识库中不存在实体的相关信息,需要对这种情况进行处理。目前实体链接的算法主要分为两种:无监督的基于字典或相似度的实体链接的算法,有监督的基于机器学习的实体链接的算法[30]。2.1.2.1无监督的实体链接的算法如果实体中仅包含实体本身无其他冗余信息或实体形式单一且有迹可循时,通常使用无监督的实体链接的算法。将问题转为单实体链接的问题,计算文本相似度,选择相关性最大的实体作为结果。2.1.2.2有监督的实体链接算法如果实体形式不规范,数据复杂,需要结合额外的信息来进行判断时,通常使用有监督的实体链接的算法,将问题转为分类问题或排序问题。实体链接的核心问题就是实体指称的候选实体排序问题。其中最著名的有监督的实体链接的算法是排序学习算法。排序学习[31](LearningtoRank,简称L2R),它采用机器学习算法,通过训练模型来解决排序问题。其达到的效果是:给定一组文档,对任意查询请求给出反映文档相关
东南大学硕士学位论文8图2-2阿里巴巴集团创始人“马云”的百度百科页面图2-3百度百科知识库中所有名为“马云”的实体2.1.2实体链接的算法分类实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。多样性是指实体可能存在多种形式,比如缩写、中英文、全称、昵称等。歧义性是指文本中出现的实体可能指代多个标准实体,但是这些标准实体之间不存在关系,会造成歧义。缺失性是指如果知识库中不存在实体的相关信息,需要对这种情况进行处理。目前实体链接的算法主要分为两种:无监督的基于字典或相似度的实体链接的算法,有监督的基于机器学习的实体链接的算法[30]。2.1.2.1无监督的实体链接的算法如果实体中仅包含实体本身无其他冗余信息或实体形式单一且有迹可循时,通常使用无监督的实体链接的算法。将问题转为单实体链接的问题,计算文本相似度,选择相关性最大的实体作为结果。2.1.2.2有监督的实体链接算法如果实体形式不规范,数据复杂,需要结合额外的信息来进行判断时,通常使用有监督的实体链接的算法,将问题转为分类问题或排序问题。实体链接的核心问题就是实体指称的候选实体排序问题。其中最著名的有监督的实体链接的算法是排序学习算法。排序学习[31](LearningtoRank,简称L2R),它采用机器学习算法,通过训练模型来解决排序问题。其达到的效果是:给定一组文档,对任意查询请求给出反映文档相关
【参考文献】:
期刊论文
[1]基于Neo4j图数据库的课程体系知识图谱系统设计与实现[J]. 肖庆都,屈亮亮,侯霞. 电脑知识与技术. 2017(36)
[2]基于重启随机游走的实体识别与链接方法[J]. 谭咏梅,郑迪,刘姝雯,吕学强. 北京邮电大学学报. 2017(06)
[3]基于Web的问答系统综述[J]. 李舟军,李水华. 计算机科学. 2017(06)
[4]基于词向量的实体链接方法[J]. 齐爱芹,徐蔚然. 数据采集与处理. 2017(03)
[5]知识图谱的发展与构建[J]. 李涛,王次臣,李华康. 南京理工大学学报. 2017(01)
[6]一种结合词向量和图模型的特定领域实体消歧方法[J]. 汪沛,线岩团,郭剑毅,文永华,陈玮,王红斌. 智能系统学报. 2016(03)
[7]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[8]国外知识图谱的应用研究现状分析[J]. 杨思洛,韩瑞珍. 情报资料工作. 2013(06)
[9]排序学习中的Ranking SVM算法研究[J]. 丁伟民. 科技视界. 2013(30)
[10]本体构建方法及构建工具研究[J]. 于斌斌. 边疆经济与文化. 2012(12)
硕士论文
[1]实体链接方法研究及信息安全领域实体链接系统实现[D]. 王猛.郑州大学 2018
[2]基于搜索引擎扩展信息的实体链接研究[D]. 何颖.合肥工业大学 2018
[3]特定领域实体链接系统的设计与实现[D]. 张广鹏.哈尔滨工业大学 2018
[4]基于网络百科的中文实体链接研究[D]. 袁金伟.西南交通大学 2017
本文编号:3268243
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
“马云”的新闻一则
东南大学硕士学位论文8图2-2阿里巴巴集团创始人“马云”的百度百科页面图2-3百度百科知识库中所有名为“马云”的实体2.1.2实体链接的算法分类实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。多样性是指实体可能存在多种形式,比如缩写、中英文、全称、昵称等。歧义性是指文本中出现的实体可能指代多个标准实体,但是这些标准实体之间不存在关系,会造成歧义。缺失性是指如果知识库中不存在实体的相关信息,需要对这种情况进行处理。目前实体链接的算法主要分为两种:无监督的基于字典或相似度的实体链接的算法,有监督的基于机器学习的实体链接的算法[30]。2.1.2.1无监督的实体链接的算法如果实体中仅包含实体本身无其他冗余信息或实体形式单一且有迹可循时,通常使用无监督的实体链接的算法。将问题转为单实体链接的问题,计算文本相似度,选择相关性最大的实体作为结果。2.1.2.2有监督的实体链接算法如果实体形式不规范,数据复杂,需要结合额外的信息来进行判断时,通常使用有监督的实体链接的算法,将问题转为分类问题或排序问题。实体链接的核心问题就是实体指称的候选实体排序问题。其中最著名的有监督的实体链接的算法是排序学习算法。排序学习[31](LearningtoRank,简称L2R),它采用机器学习算法,通过训练模型来解决排序问题。其达到的效果是:给定一组文档,对任意查询请求给出反映文档相关
东南大学硕士学位论文8图2-2阿里巴巴集团创始人“马云”的百度百科页面图2-3百度百科知识库中所有名为“马云”的实体2.1.2实体链接的算法分类实体链接技术主要是解决实体的多样性、歧义性、缺失性三方面的问题。多样性是指实体可能存在多种形式,比如缩写、中英文、全称、昵称等。歧义性是指文本中出现的实体可能指代多个标准实体,但是这些标准实体之间不存在关系,会造成歧义。缺失性是指如果知识库中不存在实体的相关信息,需要对这种情况进行处理。目前实体链接的算法主要分为两种:无监督的基于字典或相似度的实体链接的算法,有监督的基于机器学习的实体链接的算法[30]。2.1.2.1无监督的实体链接的算法如果实体中仅包含实体本身无其他冗余信息或实体形式单一且有迹可循时,通常使用无监督的实体链接的算法。将问题转为单实体链接的问题,计算文本相似度,选择相关性最大的实体作为结果。2.1.2.2有监督的实体链接算法如果实体形式不规范,数据复杂,需要结合额外的信息来进行判断时,通常使用有监督的实体链接的算法,将问题转为分类问题或排序问题。实体链接的核心问题就是实体指称的候选实体排序问题。其中最著名的有监督的实体链接的算法是排序学习算法。排序学习[31](LearningtoRank,简称L2R),它采用机器学习算法,通过训练模型来解决排序问题。其达到的效果是:给定一组文档,对任意查询请求给出反映文档相关
【参考文献】:
期刊论文
[1]基于Neo4j图数据库的课程体系知识图谱系统设计与实现[J]. 肖庆都,屈亮亮,侯霞. 电脑知识与技术. 2017(36)
[2]基于重启随机游走的实体识别与链接方法[J]. 谭咏梅,郑迪,刘姝雯,吕学强. 北京邮电大学学报. 2017(06)
[3]基于Web的问答系统综述[J]. 李舟军,李水华. 计算机科学. 2017(06)
[4]基于词向量的实体链接方法[J]. 齐爱芹,徐蔚然. 数据采集与处理. 2017(03)
[5]知识图谱的发展与构建[J]. 李涛,王次臣,李华康. 南京理工大学学报. 2017(01)
[6]一种结合词向量和图模型的特定领域实体消歧方法[J]. 汪沛,线岩团,郭剑毅,文永华,陈玮,王红斌. 智能系统学报. 2016(03)
[7]知识图谱构建技术综述[J]. 刘峤,李杨,段宏,刘瑶,秦志光. 计算机研究与发展. 2016(03)
[8]国外知识图谱的应用研究现状分析[J]. 杨思洛,韩瑞珍. 情报资料工作. 2013(06)
[9]排序学习中的Ranking SVM算法研究[J]. 丁伟民. 科技视界. 2013(30)
[10]本体构建方法及构建工具研究[J]. 于斌斌. 边疆经济与文化. 2012(12)
硕士论文
[1]实体链接方法研究及信息安全领域实体链接系统实现[D]. 王猛.郑州大学 2018
[2]基于搜索引擎扩展信息的实体链接研究[D]. 何颖.合肥工业大学 2018
[3]特定领域实体链接系统的设计与实现[D]. 张广鹏.哈尔滨工业大学 2018
[4]基于网络百科的中文实体链接研究[D]. 袁金伟.西南交通大学 2017
本文编号:3268243
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3268243.html
最近更新
教材专著