基于多源信息的实体链接算法研究及应用
发布时间:2021-03-07 15:29
实体链接(Entity Linking)是知识图谱领域一项关键的基础技术,其任务是要将非结构化文本中提及的实体和知识库中存储的实体进行一一映射,以帮助计算机更精准地理解输入的自然语言。实体链接在知识库扩展、信息检索、智能问答、内容推荐等场景下有着广泛的应用,是知识图谱领域的热点研究问题之一。本文通过对国内外基于图结构和实体嵌入的实体链接相关研究进行调研,针对实体链接研究中生成的候选实体集噪声过大,候选实体一致性衡量不精确,相似候选实体消歧能力不足等问题,提出了两种基于图结构的联合实体链接算法。具体地,本文的主要工作包括:1、提出了基于LeaderRank的联合实体链接算法—LRCEL,该算法主要包括实体识别模块、候选实体集生成模块、实体关联图构造模块、候选实体排序模块这四个主要模块。首先考虑输入文本中潜在的语义信息和本地知识库中蕴含的语义信息,生成规模小而精确的候选实体集,随后通过候选实体集构造包含候选实体强弱语义关系的实体关联图,最后利用关联图中包含的多源信息结合LeaderRank进行候选实体排序,选择一组候选实体作为输入中各实体提及的最终链接对象,完成各实体提及与知识库实体的链接...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
实体链
第三章基于图的链接算法研究27们还需要建设同义别名词典,同义别名词典记录了每个常用提及的别名。实体提及映射字典通常通过挖掘用户日志,利用启发式规则,利用知识库信息等方式得到。同义别名词典的构建方法包括但不限于:1)借助外部数据构建2)文本同义词挖掘3)人工编撰。百度百科作为全球最大的中文百科网站,我们可以借助百度百科中实体页面的Infobox信息来构建同义别名词典。在实体页面的Infobox栏中我们可以找到实体的中文名称,外文名称,常用别名等信息,这些信息可以帮助我们初步快速构建同义别名词典。图3-2给出在百度百科中关于“北京”这个实体的Infobox。图3-2百度百科实体Infobox信息在得到上述两个辅助词典后,就可以基于这两个词典得到实体提及的候选实体集。首先通过同义词别名词典将提及映射为统一规范的形式,然后通过实体提及映射词典获取提及可能链接到的候选实体。例如输入文本中存在实体提及“燕京”,首先通过同义别名词典将提及“燕京”映射为提及“北京”,然后分别以“燕京”和“北京”为主键通过实体提及映射字典查询得到提及“燕京”的候选实体<北京(中华人民共和国首都)>,<北京(朱刚演唱的歌曲)>,<北京(小行星)>等。本文依赖的部分同义别名词典结构如表3-2所示,实体提及映射词典如表3-3所示。
第五章实傼与分析53图结构数据的不二之眩图5-1DB-Engines最新发布的图数据库排名本文采用Neo4j数据库作为本地知识库的存储工具。Neo4j作为存储工具的好处有如下几点:1)Neo4j数据库是为图结构数据存储而设计,非常适合大规模存储实体和实体关系这种图结构数据。2)Neo4j数据库自带可视化工具,用该数据库存储数据可读性较强。3)Neo4j数据库具有成熟数据库的特性,在大规模图结构数据上有极儈的查询效率,是一个儈性能的图引擎。在选定好知识库的存储工具之后,将三元组数据进行清洗处理后,导入到Neo4j数据库中,即可完成本文所使用的知识库的构建存储。图5-2为CN-Dbpedia通用知识库在Neo4j中关于“复旦大学”实体的相关数据组织结构,图5-3为本文自行构建的金融知识库在Neo4j中存储的数据组织结构。在Neo4j数据库中,每个节点表示一个实体或者字符属性,连接实体节点的边表示实体间的关系。例如图5-2中“中国平安”和“平安银行”是实体,实体“王群”和实体“平安银行”间存在着管理关系。
【参考文献】:
期刊论文
[1]基于词向量和条件随机场的领域术语识别方法[J]. 冯艳红,于红,孙庚,赵禹锦. 计算机应用. 2016(11)
[2]基于条件随机场与时间词库的中文时间表达式识别[J]. 吴琼,黄德根. 中文信息学报. 2014(06)
[3]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
本文编号:3069363
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:79 页
【学位级别】:硕士
【部分图文】:
实体链
第三章基于图的链接算法研究27们还需要建设同义别名词典,同义别名词典记录了每个常用提及的别名。实体提及映射字典通常通过挖掘用户日志,利用启发式规则,利用知识库信息等方式得到。同义别名词典的构建方法包括但不限于:1)借助外部数据构建2)文本同义词挖掘3)人工编撰。百度百科作为全球最大的中文百科网站,我们可以借助百度百科中实体页面的Infobox信息来构建同义别名词典。在实体页面的Infobox栏中我们可以找到实体的中文名称,外文名称,常用别名等信息,这些信息可以帮助我们初步快速构建同义别名词典。图3-2给出在百度百科中关于“北京”这个实体的Infobox。图3-2百度百科实体Infobox信息在得到上述两个辅助词典后,就可以基于这两个词典得到实体提及的候选实体集。首先通过同义词别名词典将提及映射为统一规范的形式,然后通过实体提及映射词典获取提及可能链接到的候选实体。例如输入文本中存在实体提及“燕京”,首先通过同义别名词典将提及“燕京”映射为提及“北京”,然后分别以“燕京”和“北京”为主键通过实体提及映射字典查询得到提及“燕京”的候选实体<北京(中华人民共和国首都)>,<北京(朱刚演唱的歌曲)>,<北京(小行星)>等。本文依赖的部分同义别名词典结构如表3-2所示,实体提及映射词典如表3-3所示。
第五章实傼与分析53图结构数据的不二之眩图5-1DB-Engines最新发布的图数据库排名本文采用Neo4j数据库作为本地知识库的存储工具。Neo4j作为存储工具的好处有如下几点:1)Neo4j数据库是为图结构数据存储而设计,非常适合大规模存储实体和实体关系这种图结构数据。2)Neo4j数据库自带可视化工具,用该数据库存储数据可读性较强。3)Neo4j数据库具有成熟数据库的特性,在大规模图结构数据上有极儈的查询效率,是一个儈性能的图引擎。在选定好知识库的存储工具之后,将三元组数据进行清洗处理后,导入到Neo4j数据库中,即可完成本文所使用的知识库的构建存储。图5-2为CN-Dbpedia通用知识库在Neo4j中关于“复旦大学”实体的相关数据组织结构,图5-3为本文自行构建的金融知识库在Neo4j中存储的数据组织结构。在Neo4j数据库中,每个节点表示一个实体或者字符属性,连接实体节点的边表示实体间的关系。例如图5-2中“中国平安”和“平安银行”是实体,实体“王群”和实体“平安银行”间存在着管理关系。
【参考文献】:
期刊论文
[1]基于词向量和条件随机场的领域术语识别方法[J]. 冯艳红,于红,孙庚,赵禹锦. 计算机应用. 2016(11)
[2]基于条件随机场与时间词库的中文时间表达式识别[J]. 吴琼,黄德根. 中文信息学报. 2014(06)
[3]基于层叠隐马尔可夫模型的中文命名实体识别[J]. 俞鸿魁,张华平,刘群,吕学强,施水才. 通信学报. 2006(02)
本文编号:3069363
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3069363.html
最近更新
教材专著