当前位置:主页 > 科技论文 > 软件论文 >

面向短文本问句的命名实体识别及实体链接方法研究

发布时间:2021-06-14 05:09
  命名实体识别和实体链接作为自然语言处理领域中的基本任务,目标是识别出语句中的实体指称,并映射到知识库中的相应实体上。随着知识库问答系统的出现,作为问答系统的基础步骤,面向短文本问句的命名实体识别和实体链接技术的研究具有重要的意义和价值。对于命名实体识别,本文将命名实体识别看作序列标注任务,使用神经网络模型实现,并在模型的输入层和解码层进行了改进。对于实体连接,本文针对面向短文本问句的实体链接面临的挑战,提出了通过外部语料扩充实体指称的背景知识以及抽取实体类型、实体关系和邻近实体作为候选实体在结构化知识库中的表示形式。本文主要研究内容如下:(1)基于BiLSTM+SoftMax的神经网络模型实现了命名实体识别,在预训练的单词向量后拼接单词的字符级别和词性特征作为模型的输入,同时由于BiLSTM和SoftMax无法考虑命名实体标签之间的依赖关系,解码层使用CRF替换SoftMax,为每个单词选择全局最优的标签。(2)抽取Freebase知识库中包含实体名称属性的三元组,进行数据清洗,构建成指称-实体映射词典,并利用实体流行度对候选实体集合进行有效筛选,得到大小合适的候选实体集合,最后重新定... 

【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校

【文章页数】:58 页

【学位级别】:硕士

【部分图文】:

面向短文本问句的命名实体识别及实体链接方法研究


课题研究框架

结构图,实体类,结构图,实体


由于拥有不同的上下文内容,导致指向的是知识库中不同的实体,前者表示退役的篮球运动员,后者表示机器学习方向的教授,因此,指称上下文内容可以作为实体消歧的衡量标准。本文的目标知识库是Freebase,对于结构化组织的知识库,往往会存在实体描述信息不全或缺失的问题,因此,需要通过其他特征来表示知识库中的实体。于是,本文根据知识库本身的特点,使用实体类别和实体关系作为实体在知识库中的表示,并且分别计算与指称上下文内容的相似度,选择相似度最大的实体作为目标实体。Freebase为每个实体提供了丰富的类别信息,图4-2是实体“NewYorkCity”的类别结构,这里只列举了部分类别。知识库中对实体类别分为两个层次,第一层是相对泛化的概念,第二层则细化为具体类别,第一层包含第二层的概念,比如图中的“film_screening_venue”作为“film”这个概念集合的一个元素。图4-2实体类别结构图当问句提及到一个实体指称时,问句的内容极有可能出现与实体类别相关的词汇,因此本文将实体类别和指称的上下文内容间的相似度作为实体消歧的特征。实体类别的两层概念是包含与被包含的关系,同时将两层概念作为考虑的话,一方面会给实体类别的描述带来不少噪声;另一方面特征计算的复杂度较高。于是,本文仅保留第一层概念

代码,文件夹


第五章系统实现39的MTV模式中的T(模版),也就是网页,db.sqlite3是框架提供的一个轻量级数据库,支持数据存储,manage.py是服务器相关,可通过下面代码启动服务器,pythonmanage.pystartappLinksys图5-2系统代码结构Web应用项目通常包含前端页面、后台服务器、数据库等,基于Django的项目中,linksys文件夹包含应用后台代码,详细的内容见图5-3,这里的文件在项目创建时自动生成,其中的models.py是存放的是数据存取操作,views.py是业务逻辑层对应的代码,即处理请求的操作,其它主要是系统的配置文件。图5-3linksys文件夹内容客户端向服务端发送请求的过程,其实是浏览器和服务器的WebServer发生一个

【参考文献】:
期刊论文
[1]一种基于概率主题模型的命名实体链接方法[J]. 怀宝兴,宝腾飞,祝恒书,刘淇.  软件学报. 2014(09)



本文编号:3229132

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3229132.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9adda***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com