基于BI-LSTM-CRF模型的知识库自动问答方法研究
发布时间:2021-01-19 00:57
传统的搜索引擎以关键字组合的方式进行检索,返回一系列相关网页,需要用户进行多次筛选才能获得需要的答案。知识库问答系统融合了信息检索(Information Retrieval,IR)和自然语言处理(Natural Language Processing,NLP)等技术的优点,以自然语言问句作为输入,输出简洁、准确的自然语言答案,更能满足当代人快速、准确获取信息的需求。对现有的知识库问答系统进行分析,发现英文领域的开放知识库问答系统不仅支持单一关系问答,还支持多关系问答。在中文领域,目前的研究大都针对的是单一关系问答,多关系问答还处于探索阶段。本文基于NLPCC-ICCPOL 2016提供的知识库对中文领域的多关系问答方法进行探索,将知识库问答分为实体识别、实体关系抽取和答案检索三个子任务,本文围绕这三个子任务展开工作,具体内容如下:(1)基于BI-LSTM-CRF(Bi-direction Long Short-Term Memory Conditional Random Field)模型的实体识别、链接与消歧。针对自然语言问句中实体的多样性,首先引入BI-LSTM-CRF模型学习问句...
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
实体映射表的示例数据
武汉理工大学硕士学位论文35率、召回率和F1值变化随着训练的轮数变化情况。图2-10不同模型在训练过程中的精确率、召回率和F1分数的变化由图2-10可以发现,在BI-LSTM层上接入CRF层的拟合效果优于未接入CRF层的BI-LSTM模型。对比是否采用预训练的字向量作为输出的模型时,在训练初期,BI-LSTM-CRF+random_char_embedding模型在效果优于BI-LSTM-CRF+word2vec_char_embedding,但是随着训练的进行,BI-LSTM-CRF+random_char_embedding模型的拟合效果要优于采用随机初始化的字向量的BI-LSTM-CRF模型。最后,上述四种模型在验证集上的结果如表2-10所示。表2-10四种模型的精确率、召回率和F1值(%)模型是否使用预训练的字向量精确率(%)召回率(%)F1值(%)BI-LSTM是96.6898.1697.42否97.2598.3097.77BI-LSTM-CRF是98.7998.8298.80否98.6198.5898.59
武汉理工大学硕士学位论文36由图2-10和表2-10可知,BI-LSTM模型引入CRF层后,实体识别效果优于未接入CRF层的模型效果。对于是否采用预训练的字向量对识别结果的影响不大,其中BI-LSTM模型使用随机初始化的字向量的效果优于使用预训练的字向量,而BI-LSTM-CRF模型采用预训练的字向量后,效果略微有所提升。因此,本文最终采用BI-LSTM-CRF模型,使用预训练的字向量作为输入。为了防止过拟合,BI-LSTM-CRF模型训练过程中使用了Dropout策略,上述实验在Dropout为0.5的情况下进行的。为了探讨Dropout的设置对实验结果的影响,本文针对Dropout做了三组实验,即Dropout分别为0.25、0.5、0.75时的训练效果。训练过程中的损失值变化情况如图2-11所示。图2-11Dropout取不同值时训练过程中的损失值的变化由图2-11可以发现,Dropout取值为0.75时,拟合效果明显比取值为0.25和0.5时效果好。为Dropout分别取0.25、0.5和0.75时在验证集上的精确率、召回率和F1值。表2-11三种Dropout策略下的精确率、召回率和F1值(%)Dropout精确率(%)召回率(%)F1值(%)0.2595.8895.3595.610.598.7998.8298.800.7598.8298.9298.97综合上面的实验结果,最后采用BI-LSTM-CRF作为实体识别模型,并采用预训练的字向量作为输入,Dropout设置为0.75。
本文编号:2986012
【文章来源】:武汉理工大学湖北省 211工程院校 教育部直属院校
【文章页数】:90 页
【学位级别】:硕士
【部分图文】:
实体映射表的示例数据
武汉理工大学硕士学位论文35率、召回率和F1值变化随着训练的轮数变化情况。图2-10不同模型在训练过程中的精确率、召回率和F1分数的变化由图2-10可以发现,在BI-LSTM层上接入CRF层的拟合效果优于未接入CRF层的BI-LSTM模型。对比是否采用预训练的字向量作为输出的模型时,在训练初期,BI-LSTM-CRF+random_char_embedding模型在效果优于BI-LSTM-CRF+word2vec_char_embedding,但是随着训练的进行,BI-LSTM-CRF+random_char_embedding模型的拟合效果要优于采用随机初始化的字向量的BI-LSTM-CRF模型。最后,上述四种模型在验证集上的结果如表2-10所示。表2-10四种模型的精确率、召回率和F1值(%)模型是否使用预训练的字向量精确率(%)召回率(%)F1值(%)BI-LSTM是96.6898.1697.42否97.2598.3097.77BI-LSTM-CRF是98.7998.8298.80否98.6198.5898.59
武汉理工大学硕士学位论文36由图2-10和表2-10可知,BI-LSTM模型引入CRF层后,实体识别效果优于未接入CRF层的模型效果。对于是否采用预训练的字向量对识别结果的影响不大,其中BI-LSTM模型使用随机初始化的字向量的效果优于使用预训练的字向量,而BI-LSTM-CRF模型采用预训练的字向量后,效果略微有所提升。因此,本文最终采用BI-LSTM-CRF模型,使用预训练的字向量作为输入。为了防止过拟合,BI-LSTM-CRF模型训练过程中使用了Dropout策略,上述实验在Dropout为0.5的情况下进行的。为了探讨Dropout的设置对实验结果的影响,本文针对Dropout做了三组实验,即Dropout分别为0.25、0.5、0.75时的训练效果。训练过程中的损失值变化情况如图2-11所示。图2-11Dropout取不同值时训练过程中的损失值的变化由图2-11可以发现,Dropout取值为0.75时,拟合效果明显比取值为0.25和0.5时效果好。为Dropout分别取0.25、0.5和0.75时在验证集上的精确率、召回率和F1值。表2-11三种Dropout策略下的精确率、召回率和F1值(%)Dropout精确率(%)召回率(%)F1值(%)0.2595.8895.3595.610.598.7998.8298.800.7598.8298.9298.97综合上面的实验结果,最后采用BI-LSTM-CRF作为实体识别模型,并采用预训练的字向量作为输入,Dropout设置为0.75。
本文编号:2986012
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2986012.html