学术文献的实体关系抽取研究及实现
发布时间:2021-03-30 00:59
利用自然语言处理等人工智能技术从海量学术文献中抽取科学实体以及它们之间的关系能够实现文献的结构化、知识化,提高研究人员检索文献、分析文献和把握科研动态的效率,并能为政府部门布局科研规划、社会组织构建核心技术群提供依据。本文侧重集成深度学习中不同网络模型和注意力机制的技术特点,去抽取文献中的任务、方法等科学实体以及它们之间的上下位或同义关系。针对学术文献中的语言描述特点,通过集成双向长短时记忆网络和自注意力机制去解决科学实体识别中的上下文依赖和远距离相关性;通过集成卷积神经网络和双向长短时记忆网络去解决关系抽取中的局部相关性和长距离依赖,具体工作包括:(1)科学实体识别:提出一种结合BiLSTM-CRF和自注意力机制的SAFE-BiLSTMCRF模型。该模型将科学实体识别抽象成句子级别的序列标注任务,首先从大规模文献文本中学习词向量,并引入对大小写和特殊字符敏感的字符级向量;然后使用BiLSTM提取单词的上下文依赖特征,利用自注意力机制去获取单词的全局相关特征,解决主流方法难以捕捉远距离相关信息的问题;最后通过CRF获得最优标签序列。(2)科学实体关系抽取:提出一种融合CNN、BiLST...
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
卷积
最大池化
恢终攵孕蛄惺?荻?杓?的一种神经网络,它对输入序列中的每个元素都执行相同的计算,并且在处理每个元素时都会考虑上一个元素的隐层状态,这形成了一个循环,从而解决了其他网络不具有记忆功能的缺陷。卷积神经网络、多层感知机等常用的神经网络都是不具备记忆力的,其假设输入是独立的、没有上下文联系的,但是在有些场景中输入之间是存在依赖的,例如,在预测句子中的第t个单词时,其输出依赖于之前t-1个时刻的输入,这就要求网络必须具有记忆力才能适用于这样的场景。因此,RNN在处理序列数据的场景中得到了广泛的应用,图2.3展示了RNN未展开和展开的结构图。图2.3循环神经网络的结构通过将RNN的结构展开,可以看到其会一步步处理输入序列X中的每一个元素,而且每个元素都有着相同的处理流程,即先经过隐藏层再经过输出层。例如,若当前的输入序列是包含10个单词的的词向量序列,那么展开后的网络将会有10个一模一样的模块,这些模块共享参数,且每个模块的隐藏层都依赖于上一个模块的隐藏层输出。在第t个模块中,其输入是序列中当前位置元素和上一模块的隐藏层状态h1,则当前模块的隐藏层状态由公式(2.1-2.2)计算得到。z=Wih+Whhh1(2.1)h=(z)(2.2)其中,Wih、Whh均是待学习的参数,是激活函数,常用的有S型函数sigmoid、双曲正切函数tanh以及修正线性单元函数ReLU等。最后,可以通过隐藏层状态h计算得到当前位置的输出:y=Wohh(2.3)从理论上来讲,RNN能够处理任意长的序列,并且应该在序列的每个位置能够利用之前的信息,但是在实际使用中,RNN通常只能用于处理较短的序列,原因是在序列过长时,其反向传播过程中会发生梯度消失或梯度爆炸问题。根据链式法则,可以计算任意位置对每个参数?
本文编号:3108534
【文章来源】:东南大学江苏省 211工程院校 985工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
卷积
最大池化
恢终攵孕蛄惺?荻?杓?的一种神经网络,它对输入序列中的每个元素都执行相同的计算,并且在处理每个元素时都会考虑上一个元素的隐层状态,这形成了一个循环,从而解决了其他网络不具有记忆功能的缺陷。卷积神经网络、多层感知机等常用的神经网络都是不具备记忆力的,其假设输入是独立的、没有上下文联系的,但是在有些场景中输入之间是存在依赖的,例如,在预测句子中的第t个单词时,其输出依赖于之前t-1个时刻的输入,这就要求网络必须具有记忆力才能适用于这样的场景。因此,RNN在处理序列数据的场景中得到了广泛的应用,图2.3展示了RNN未展开和展开的结构图。图2.3循环神经网络的结构通过将RNN的结构展开,可以看到其会一步步处理输入序列X中的每一个元素,而且每个元素都有着相同的处理流程,即先经过隐藏层再经过输出层。例如,若当前的输入序列是包含10个单词的的词向量序列,那么展开后的网络将会有10个一模一样的模块,这些模块共享参数,且每个模块的隐藏层都依赖于上一个模块的隐藏层输出。在第t个模块中,其输入是序列中当前位置元素和上一模块的隐藏层状态h1,则当前模块的隐藏层状态由公式(2.1-2.2)计算得到。z=Wih+Whhh1(2.1)h=(z)(2.2)其中,Wih、Whh均是待学习的参数,是激活函数,常用的有S型函数sigmoid、双曲正切函数tanh以及修正线性单元函数ReLU等。最后,可以通过隐藏层状态h计算得到当前位置的输出:y=Wohh(2.3)从理论上来讲,RNN能够处理任意长的序列,并且应该在序列的每个位置能够利用之前的信息,但是在实际使用中,RNN通常只能用于处理较短的序列,原因是在序列过长时,其反向传播过程中会发生梯度消失或梯度爆炸问题。根据链式法则,可以计算任意位置对每个参数?
本文编号:3108534
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3108534.html