英文实体识别与链接的研究与实现
发布时间:2020-10-14 16:41
随着互联网近年的快速发展,文本信息数量激增,而且文本信息的表现形式越来越具有多样性。网络文本中存在大量的简写、缩写、不规范和昵称的表达导致的实体多样性问题以及自然语言自身的歧义性导致的实体歧义问题,影响了人们对信息的分析和理解。实体歧义性是指同一个字符串在不同的上下文中可以表示不同的实体,实体多样性是指多个不同的字符串可以表示同一个实体。通过解决实体的歧义性和多样性问题可以帮助人们更好的理解文本信息。实体识别与链接是根据上下文信息将文本中人名等实体指称链接到知识库中对应实体的过程,主要解决了实体的多样性问题和实体的歧义问题,对搜索引擎、信息理解和问答系统具有重要意义。实体识别与链接任务是识别文本中的实体指称并将其链接到知识库中相对应实体的过程,实体指称是指文本中具有特定意义的字符串,如人名、机构名等。目前的实体链接方法主要有单一式的实体链接方法和协同式的实体链接方法。单一式的实体链接方法每次对文本中的单个实体指称进行链接,注重实体指称的上下文和知识库中实体的描述文本信息,忽略了文本中实体指称间的关系。协同式的实体链接方法对文本中的全部实体指称一起进行链接,注重实体指称间的相互关系和知识库中实体间的相互联系,但忽略了实体指称的上下文和知识库中实体的描述文本信息。针对上述方法的不足,本文提出了一种融合卷积神经网络和重启随机游走的实体链接方法,并基于该方法实现了一个实体识别与链接系统。该方法首先对文本中的实体指称进行识别,然后生成实体指称的候选实体集,随后使用融合卷积神经网络和重启随机游走的实体链接方法对候选实体进行选择,最后对在知识库中无对应实体的实体指称进行聚类。本文方法在KBP2016的实体识别与链接评测任务的英文数据集上的FCEAFm值为0.669,低于2016年英文参赛队伍的第一名0.015,高于2016年英文参赛队伍第二名0.019。在KBP2016的实体识别与链接评测任务中中文、英文以及西班牙文三种语言的评测数据集上验证了本文方法的通用性,三种语言实验结果的FCEAFm值为0.652,KBP2016三种语言评测第一名的FCEAFm值为0.643。实验结果表明,本文提出的融合卷积神经网络和重启随机游走的实体识别和链接方法能够有效地进行实体链接。本文的主要贡献如下:1、提出了一种融合卷积神经网络和重启随机游走的实体链接方法,该方法通过使用卷积神经网络获取实体指称和实体的局部重点信息结合重启随机游走算法获取实体指称和实体的全局信息进行实体链接,最终得到实体链接的结果更加准确。2、针对实体链接任务,本文使用重启随机游走获取实体指称和实体的语义特征,即获取实体指称和实体的全局信息。3、针对实体链接任务,本文使用卷积神经网络获取指称的上下文以及实体在知识库中的描述文本的文本特征,即获取实体指称和实体的局部重点信息。4、构建知识库分析索引。传统的实体检索方法采用的是字符串匹配的方式,检索效率较低。因此本文通过对知识库进行解析并使用Elasticsearch全文搜索引擎构建了知识库分析索引,并在此基础上设计了更加合理的实体检索策略。
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1
【部分图文】:
技术相结合实现人工智能落地的技术之一。智能搜索引擎是非常智能的、可以理??解用户需求、并以用户为中心的搜索技术。智能搜索跟传统搜索引擎的表面上的??区别在于搜索的结果不仅仅展示网页,而且会展示相应的结构化知识,如图2-1??所示。??Go?:?gte?■爸?4?^?:;;?0??m?m?霹片?_?d?翌麥设蓬?工思??tT.smMmmm?;??焦点麵?—??國?|:腦?-:?M??idmTmmWM?範?¥?粕琴勒ip甚反溪?trim.??wmm:.??;?1S^S?2?S?s?li?=;?!¥*)?.?-S^ttie^ianiaics?Hojp^al??y&JicaiC^nte-??BSC挪?■海?截雜笨?紐:打??资产制S?:?3H2孫冗(2017每)盛55???今财:喊i翻輦卿.細*}??至多??f?ft?:?-?-j-s-*,???唐納德-j!i普-缝基m?’?§由的百释全韦?變百科?音.纖链耷??图2-1?“特朗普”的Google搜索页面??8??
模型的优点。参数共享使得模型能够适应不同形式的样本并进行泛化。??目前循环神经网络模型以及循环神经网络的变种模型是目前自然语言领域??应用最多的深度学习模型,其网络结构如图2-3所示。??15??
为了解决传统循环神经网络存在的“梯度消失”与“梯度爆炸”等问题,??Hochreiter等人于1997年对循环神经网络进行了改进提出了长短期记忆单元??长短期记忆单元在一定程度上解决了“梯度消失”的问题,其结构图如图2-4所??不。??16??
【参考文献】
本文编号:2840921
【学位单位】:北京邮电大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.1
【部分图文】:
技术相结合实现人工智能落地的技术之一。智能搜索引擎是非常智能的、可以理??解用户需求、并以用户为中心的搜索技术。智能搜索跟传统搜索引擎的表面上的??区别在于搜索的结果不仅仅展示网页,而且会展示相应的结构化知识,如图2-1??所示。??Go?:?gte?■爸?4?^?:;;?0??m?m?霹片?_?d?翌麥设蓬?工思??tT.smMmmm?;??焦点麵?—??國?|:腦?-:?M??idmTmmWM?範?¥?粕琴勒ip甚反溪?trim.??wmm:.??;?1S^S?2?S?s?li?=;?!¥*)?.?-S^ttie^ianiaics?Hojp^al??y&JicaiC^nte-??BSC挪?■海?截雜笨?紐:打??资产制S?:?3H2孫冗(2017每)盛55???今财:喊i翻輦卿.細*}??至多??f?ft?:?-?-j-s-*,???唐納德-j!i普-缝基m?’?§由的百释全韦?變百科?音.纖链耷??图2-1?“特朗普”的Google搜索页面??8??
模型的优点。参数共享使得模型能够适应不同形式的样本并进行泛化。??目前循环神经网络模型以及循环神经网络的变种模型是目前自然语言领域??应用最多的深度学习模型,其网络结构如图2-3所示。??15??
为了解决传统循环神经网络存在的“梯度消失”与“梯度爆炸”等问题,??Hochreiter等人于1997年对循环神经网络进行了改进提出了长短期记忆单元??长短期记忆单元在一定程度上解决了“梯度消失”的问题,其结构图如图2-4所??不。??16??
【参考文献】
相关期刊论文 前8条
1 谭咏梅;郑迪;刘姝雯;吕学强;;基于重启随机游走的实体识别与链接方法[J];北京邮电大学学报;2017年06期
2 徐增林;盛泳潘;贺丽荣;王雅芳;;知识图谱技术综述[J];电子科技大学学报;2016年04期
3 谭咏梅;王睿;李茂林;;基于上下文信息和排序学习的实体链接方法[J];北京邮电大学学报;2015年05期
4 李茂林;;基于主题敏感的重启随机游走实体链接方法[J];北京大学学报(自然科学版);2016年01期
5 谭咏梅;杨雪;;结合实体链接与实体聚类的命名实体消歧[J];北京邮电大学学报;2014年05期
6 怀宝兴;宝腾飞;祝恒书;刘淇;;一种基于概率主题模型的命名实体链接方法[J];软件学报;2014年09期
7 朱敏;贾真;左玲;吴安峻;陈方正;柏玉;;中文微博实体链接研究[J];北京大学学报(自然科学版);2014年01期
8 王宁,葛瑞芳,苑春法,黄锦辉,李文捷;中文金融新闻中公司名的识别[J];中文信息学报;2002年02期
相关硕士学位论文 前3条
1 郑迪;实体识别与链接的研究与实现[D];北京邮电大学;2017年
2 李茂林;英文实体链接系统的研究与实现[D];北京邮电大学;2016年
3 王睿;实体链接的研究与实现[D];北京邮电大学;2015年
本文编号:2840921
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2840921.html