面向自由文本的资源实体与关系抽取
发布时间:2021-11-23 05:31
资源库是计算机辅助创新系统中的一个重要库,多年来一直通过人工抽取资源进行填充。资源库的数据量对辅助创新具有重大价值和意义,所以如何从海量文本中自动高效地抽取资源受到关注和研究。以往对资源的抽取往往采用机器学习的方法,这类机器学习模型往往为浅层模型,特征的制定均围绕两个实体展开并且停留在词汇表层。然而对于资源抽取,需要以整个句子的语义信息为基础,所以获取整个句子和其上下文之间的深层语义特征十分关键。因此,本文提出利用深度学习模型中的双向长短时记忆网络(Bidirectional Long Short Term Memory,BLSTM)对资源进行抽取,该模型具有挖掘文本深层语义信息和利用句子上下文信息等特点,能够取得更好的实验结果。所以,本文利用BLSTM提出了一种资源实体与关系抽取算法,目的是抽取自由文本中的资源所包括的物质、属性、参数、量值四种实体以及四者之间的关系。该算法包括资源实体识别和资源关系抽取两项子任务。在资源实体识别中,由于属性和参数在句中语法位置相同,造成区分困难,所以先把属性实体和参数实体看成一个实体,称为属-参实体,利用BLSTM构建实体识别模型,并在模型中引入维特...
【文章来源】:河北工业大学天津市 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
部分实验结果
河北工业大学硕士学位论文-23-表3.5训练集、验证集、测试集中句子及命名实体数量句子数物质实体属性参数实体量值实体训练集1500124430415142验证集5004817661536测试集50253963412433.4.2不同参数下的实验分析本节根据前面提出的基于BLSTM的实体识别模型,在实验语料上进行训练和测试,通过调整模型各参数进行实验,并且将实验结果进行对比分析。实验使用Python的Theano库完成基于BLSTM的实体识别模型的搭建,该库支持各种高度抽象的数学运算,无需手动求导,并且资源十分丰富,所以近几年在数学计算领域,尤其是深度学习领域theano的使用越来越多。针对模型参数复杂的问题,本文做了大量的对比实验,以分析各个参数对模型的标注结果产生的影响,之所以对不同参数进行实验的分析,是由于深度神经网络模型的复杂性,至今为止各个参数如何确定都没有找到一个很好的解析式,参数的确定往往都根据自己的实验来确定。本实验讨论的参数有:embedding向量维度、学习率、隐藏层单元数量以及dropout值[52]。所以本文对这四种参数分别进行实验,四种参数初始值分别为:embedding向量维度为200,学习率为0.01,隐藏层单元数量为200,Dropout值为0.1,实验结果如图3.5-图3.8所示,其中均值F为四种命名实体F1值的均值。图3.5不同的embedding向量维度对均值F的影响
面向自由文本的资源实体与关系抽取-24-从图3.5中可以看出,随着embedding向量维度的增加,均值F1也在增加,并且当embedding向量维度等于200的时候达到峰值。这说明embedding向量维度并不是越大越好,而是存在一个局部最优值,这个值可能与输入、输出的单元数量有关,也可能与词典大小有关,因为每个词的embedding向量表示都不同,所以词典越大,则用以表示句子的完整语义的embedding向量维度应该也越高。图3.6不同的学习率对均值F的影响学习率是深度学习模型中非常重要的一个参数,决定了参数移动到最优值速度快慢。学习率设置的太大,可能就会使参数直接跳过最优值,相反,就会造成长时间无法收敛到最优值。从图3.6中可以看出,学习率值越高,实体识别结果越不好,四组实验中,当学习率为0.005时为,实验结果最优。图3.7不同的隐藏层单元数量对均值F的影响
本文编号:3513226
【文章来源】:河北工业大学天津市 211工程院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
部分实验结果
河北工业大学硕士学位论文-23-表3.5训练集、验证集、测试集中句子及命名实体数量句子数物质实体属性参数实体量值实体训练集1500124430415142验证集5004817661536测试集50253963412433.4.2不同参数下的实验分析本节根据前面提出的基于BLSTM的实体识别模型,在实验语料上进行训练和测试,通过调整模型各参数进行实验,并且将实验结果进行对比分析。实验使用Python的Theano库完成基于BLSTM的实体识别模型的搭建,该库支持各种高度抽象的数学运算,无需手动求导,并且资源十分丰富,所以近几年在数学计算领域,尤其是深度学习领域theano的使用越来越多。针对模型参数复杂的问题,本文做了大量的对比实验,以分析各个参数对模型的标注结果产生的影响,之所以对不同参数进行实验的分析,是由于深度神经网络模型的复杂性,至今为止各个参数如何确定都没有找到一个很好的解析式,参数的确定往往都根据自己的实验来确定。本实验讨论的参数有:embedding向量维度、学习率、隐藏层单元数量以及dropout值[52]。所以本文对这四种参数分别进行实验,四种参数初始值分别为:embedding向量维度为200,学习率为0.01,隐藏层单元数量为200,Dropout值为0.1,实验结果如图3.5-图3.8所示,其中均值F为四种命名实体F1值的均值。图3.5不同的embedding向量维度对均值F的影响
面向自由文本的资源实体与关系抽取-24-从图3.5中可以看出,随着embedding向量维度的增加,均值F1也在增加,并且当embedding向量维度等于200的时候达到峰值。这说明embedding向量维度并不是越大越好,而是存在一个局部最优值,这个值可能与输入、输出的单元数量有关,也可能与词典大小有关,因为每个词的embedding向量表示都不同,所以词典越大,则用以表示句子的完整语义的embedding向量维度应该也越高。图3.6不同的学习率对均值F的影响学习率是深度学习模型中非常重要的一个参数,决定了参数移动到最优值速度快慢。学习率设置的太大,可能就会使参数直接跳过最优值,相反,就会造成长时间无法收敛到最优值。从图3.6中可以看出,学习率值越高,实体识别结果越不好,四组实验中,当学习率为0.005时为,实验结果最优。图3.7不同的隐藏层单元数量对均值F的影响
本文编号:3513226
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3513226.html