表示映射及其在关系抽取和知识库问答的应用
发布时间:2022-04-25 20:50
随着互联网技术的发展,各种信息在网络上交相辉映。在这个信息爆炸的时代,如何从大规模信息中高效准确的获得用户关心的内容成为亟需解决的问题。关系抽取和知识库问答作为自然语言处理的核心任务,对于解决此类问题起着重要的作用。关系抽取可以从大量自然语言文本中抽取结构化信息,目前广泛使用的关系抽取训练集存在一定的噪音,使用这些结构化信息辅助监督关系抽取可以有效地缓解噪音带来的影响。本文将出现在知识库但未在训练集出现的实体称作未登录实体。在实际使用过程中,因为缺乏未登录实体的表示,关系抽取的大多数方法不能很好地处理涉及这些实体的样本。知识库问答一般可以分为实体链接和关系检测两个步骤。相比于实体链接只需要问句和知识库实体的词汇级别匹配,关系检测需要理解整句话的语义,因而更具有挑战性。由于知识库所覆盖的关系种类众多,对知识库的所有关系标注足量的语料用以训练关系检测模型是不现实的。同样地,本文将没有标注训练语料的关系称作未登录关系。实际使用中,知识库问答系统不能很好地回答涉及未登录关系的问题。在开放域的知识库问答中,这种现象尤为严重。本文主要对未登录实体和关系的表示进行研究,主要工作内容如下:1.本文提出...
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
图1-2:智能问答的历史??
图2-2:利用词嵌入技术表示知识库子图??2.4知识库问答??相比于一般的问答系统,知识库问答依托于一个结构化的知识库。这些??知识库以“<?实体,关系,实体?>”这样的三元组组成图结构。知识库问答??就是通过语义分析将问题转化为结构化的查询语句,进而查询知识库,得到??答案。例如???“who?is?the?CEO?of?Apple?inc_?”,可以将这句话转化成如F的??SPARQL?i吾句?“SELECT??name?WHERE?{?name?CEO_of?Apple.};”?,其中得到??实体“Apple.”和关系“CEO_of”是转化为结构化查询语句的重要步骤。??知识库问答的一般流程是:先进行实体链接,得到问题涉及的实体在知识??库的id,然后进行关系检测,识别这个问句所对应的关系。实体链接中最重要??的就是实体的识别,识别过程中,一般采用序列化标注的方法,即标注一个问??句中哪些词属于实体。在关系检测(Relation?Detection,?RD)①方面,传统的基??于符号的语义分析方法由于受到符号间的语义鸿沟的影响,已经不适合应用在??。些
??不幸的是,在一个具有大量未登录词的场景下,初始化的方法会造成已登??录词和未登录词之间有明显的界限。如图3-1PI?所示,其中红色代表罕见??词,蓝色代表常用词,图3-la是在WMT14翻译任务上训练的词嵌入表示,??图3-lb是在Google?News使用word2vec训练得到的词表不。可以看出训练得??到的词表示有很明显的分界线,罕见词总是聚集在一起。同样的,在知识库问??答的场景下,当存在大量未登录关系时,微调表示会导致只有已登录关系的表??示会被调整到正确的位置,未登录关系的表示由于没有对应的样本作为训练??集,所以很难被更新到正确的位置上。特别地,在多分类任务上,标签是互斥??的,未登录关系只能作为负样本被随机更新,还具有很高的不确定性。??;c.??,???
【参考文献】:
期刊论文
[1]基于表示学习的知识库问答研究进展与展望[J]. 刘康,张元哲,纪国良,来斯惟,赵军. 自动化学报. 2016(06)
本文编号:3648319
【文章页数】:94 页
【学位级别】:硕士
【部分图文】:
图1-2:智能问答的历史??
图2-2:利用词嵌入技术表示知识库子图??2.4知识库问答??相比于一般的问答系统,知识库问答依托于一个结构化的知识库。这些??知识库以“<?实体,关系,实体?>”这样的三元组组成图结构。知识库问答??就是通过语义分析将问题转化为结构化的查询语句,进而查询知识库,得到??答案。例如???“who?is?the?CEO?of?Apple?inc_?”,可以将这句话转化成如F的??SPARQL?i吾句?“SELECT??name?WHERE?{?name?CEO_of?Apple.};”?,其中得到??实体“Apple.”和关系“CEO_of”是转化为结构化查询语句的重要步骤。??知识库问答的一般流程是:先进行实体链接,得到问题涉及的实体在知识??库的id,然后进行关系检测,识别这个问句所对应的关系。实体链接中最重要??的就是实体的识别,识别过程中,一般采用序列化标注的方法,即标注一个问??句中哪些词属于实体。在关系检测(Relation?Detection,?RD)①方面,传统的基??于符号的语义分析方法由于受到符号间的语义鸿沟的影响,已经不适合应用在??。些
??不幸的是,在一个具有大量未登录词的场景下,初始化的方法会造成已登??录词和未登录词之间有明显的界限。如图3-1PI?所示,其中红色代表罕见??词,蓝色代表常用词,图3-la是在WMT14翻译任务上训练的词嵌入表示,??图3-lb是在Google?News使用word2vec训练得到的词表不。可以看出训练得??到的词表示有很明显的分界线,罕见词总是聚集在一起。同样的,在知识库问??答的场景下,当存在大量未登录关系时,微调表示会导致只有已登录关系的表??示会被调整到正确的位置,未登录关系的表示由于没有对应的样本作为训练??集,所以很难被更新到正确的位置上。特别地,在多分类任务上,标签是互斥??的,未登录关系只能作为负样本被随机更新,还具有很高的不确定性。??;c.??,???
【参考文献】:
期刊论文
[1]基于表示学习的知识库问答研究进展与展望[J]. 刘康,张元哲,纪国良,来斯惟,赵军. 自动化学报. 2016(06)
本文编号:3648319
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3648319.html