水稻病虫草害与药剂实体关系联合抽取算法
发布时间:2022-02-26 15:34
[目的]从水稻病虫草害防治文本中,自动抽取病虫草害与药剂之间的实体与关系,为构建作物系统领域知识图谱提供数据。[方法]针对病虫草害防治文本中含有大量实体没有明确边界以及药剂与病虫草害实体之间存在多种类型关系的特点,设计了一种基于新标注模式的双层长短期记忆(bi-directional long short-term memory,BiLSTM)网络与注意力机制结合的水稻病虫草害与药剂的实体关系联合抽取算法(joint entity recognition and relation extraction for rice diseases,pests and weeds,JE-DPW)。该方法在解码层利用BiLSTM网络的前向传播和反向传播,增强对病虫草害防治文本中复杂语义特征的提取;再通过softmax分类器获取字符的类别标签,实现实体识别;与此同时,利用注意力机制判断当前字符与之前字符之间存在的关联关系,实现实体与多关系的联合抽取。[结果]利用包含7 380个实体、8 605个关系的病虫草害防治文本数据集训练模型,使用测试集测试后发现:JE-DPW算法在病虫草害与药剂的实体抽取和关系...
【文章来源】:南京农业大学学报. 2020,43(06)北大核心CSCD
【文章页数】:11 页
【部分图文】:
JE-DPW算法框架
药剂与病虫草害实体之间的关系细分为6种,分别是:治疗病害关系(Treate_dis)、不治疗病害关系(Distreate_dis)、治疗虫害关系(Treate_pes)、不治疗虫害关系(Distreate_pes)、治疗草害关系(Treate_str)、不治疗草害关系(Distreate_str)。其中Treate表示治疗,Distreate表示不治疗,下划线“_”后面接的是治疗或者不治疗的类型。图2为标注的例句展示。由于自制数据集全部通过手工标注,标注错误可能导致噪声标签的出现。对于人工标注错误的噪声标签,本文设计了自动找错程序,首先检测实体标签是否符合“BIO”标注规则,即每一个实体标签都是以B开头,中间和结尾的字符都是I标签。例如药剂实体标签的开头都是B-DRU,那么在下一个O标签之前,后续的实体标签一定都是I-DRU,否则标注错误,输出错误的位置,然后人工修正。对于关系标签主要是通过字符串检测的方式,来判断关系标注的准确性,发现标注错误后,人为修改错误的标签保证自制数据集标注的正确性。
图3为不同方法识别的实体数情况。从图3-a可以看出:JE-DPW模型、BiLSTM-WA模型、E-BiLSTM模型识别的实体数相差不大,分别为1 865、1 856、1 868;JE-DPW模型正确识别的实体数是1 703,比BiLSTM-WA和E-BiLSTM分别多46和165,错误识别的实体数为162,分别比BiLSTM-WA模型和 E-BiLSTM 模型少37和168,说明JE-DPW模型抽取效果更优。实体识别错误主要分为3种情形:类型错误、歧义错误、边界错误。类型错误指实体边界正确,但是类型错误,如表6中E-BiLSTM模型将草害实体“千金子”错误地识别为药剂类型实体。歧义错误指该实体表示的意思有多种,如虫害实体“二化螟”包含“一代二化螟”“二代二化螟”“三代二化螟”等。边界错误指实体类型识别正确但是边界发生错误,如表6中对药剂实体“吡嘧磺隆”3种模型都把该实体识别为药剂类型(DRU),但是识别的实体名称为“吡嘧磺”,缺少了边界字符。从图3-b可以看出:JE-DPW、BiLSTM-WA、E-BiLSTM发生实体边界错误数分别为147、176和295,边界错误占总错误数的比例分别为88.3%、88.4%、89.4%,因此实体边界错误是实体识别的主要错误。从图3-c可见:E-BiLSTM模型在抽取实体时,边界错误的实体中有155个属于无边界实体,而JE-DPW模型中,边界错误的实体仅有76个属于无边界实体,比E-BiLSTM模型少79个;在无边界实体识别上,JE-DPW模型的抽取效果明显优于 E-BiLSTM 模型。JE-DPW模型比BiLSTM-WA模型对无边界实体识别的错误数少18个,表明在解码层使用BiLSTM网络对文本特征提取的能力强于使用单向LSTM网络,在实体抽取上所得到的语义信息更充分。
【参考文献】:
期刊论文
[1]基于神经网络的药物实体与关系联合抽取[J]. 曹明宇,杨志豪,罗凌,林鸿飞,王健. 计算机研究与发展. 2019(07)
[2]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[3]基于联合模型的藏文实体关系抽取方法研究[J]. 夏天赐,孙媛. 中文信息学报. 2018(12)
[4]基于条件随机场的农作物病虫害及农药命名实体识别[J]. 李想,魏小红,贾璐,陈昕,刘磊,张彦娥. 农业机械学报. 2017(S1)
[5]基于BLSTM的命名实体识别方法[J]. 冯艳红,于红,孙庚,孙娟娟. 计算机科学. 2018(02)
[6]知识图谱研究进展[J]. 漆桂林,高桓,吴天星. 情报工程. 2017(01)
[7]基于条件随机场的农业命名实体识别研究[J]. 王春雨,王芳. 河北农业大学学报. 2014(01)
本文编号:3644713
【文章来源】:南京农业大学学报. 2020,43(06)北大核心CSCD
【文章页数】:11 页
【部分图文】:
JE-DPW算法框架
药剂与病虫草害实体之间的关系细分为6种,分别是:治疗病害关系(Treate_dis)、不治疗病害关系(Distreate_dis)、治疗虫害关系(Treate_pes)、不治疗虫害关系(Distreate_pes)、治疗草害关系(Treate_str)、不治疗草害关系(Distreate_str)。其中Treate表示治疗,Distreate表示不治疗,下划线“_”后面接的是治疗或者不治疗的类型。图2为标注的例句展示。由于自制数据集全部通过手工标注,标注错误可能导致噪声标签的出现。对于人工标注错误的噪声标签,本文设计了自动找错程序,首先检测实体标签是否符合“BIO”标注规则,即每一个实体标签都是以B开头,中间和结尾的字符都是I标签。例如药剂实体标签的开头都是B-DRU,那么在下一个O标签之前,后续的实体标签一定都是I-DRU,否则标注错误,输出错误的位置,然后人工修正。对于关系标签主要是通过字符串检测的方式,来判断关系标注的准确性,发现标注错误后,人为修改错误的标签保证自制数据集标注的正确性。
图3为不同方法识别的实体数情况。从图3-a可以看出:JE-DPW模型、BiLSTM-WA模型、E-BiLSTM模型识别的实体数相差不大,分别为1 865、1 856、1 868;JE-DPW模型正确识别的实体数是1 703,比BiLSTM-WA和E-BiLSTM分别多46和165,错误识别的实体数为162,分别比BiLSTM-WA模型和 E-BiLSTM 模型少37和168,说明JE-DPW模型抽取效果更优。实体识别错误主要分为3种情形:类型错误、歧义错误、边界错误。类型错误指实体边界正确,但是类型错误,如表6中E-BiLSTM模型将草害实体“千金子”错误地识别为药剂类型实体。歧义错误指该实体表示的意思有多种,如虫害实体“二化螟”包含“一代二化螟”“二代二化螟”“三代二化螟”等。边界错误指实体类型识别正确但是边界发生错误,如表6中对药剂实体“吡嘧磺隆”3种模型都把该实体识别为药剂类型(DRU),但是识别的实体名称为“吡嘧磺”,缺少了边界字符。从图3-b可以看出:JE-DPW、BiLSTM-WA、E-BiLSTM发生实体边界错误数分别为147、176和295,边界错误占总错误数的比例分别为88.3%、88.4%、89.4%,因此实体边界错误是实体识别的主要错误。从图3-c可见:E-BiLSTM模型在抽取实体时,边界错误的实体中有155个属于无边界实体,而JE-DPW模型中,边界错误的实体仅有76个属于无边界实体,比E-BiLSTM模型少79个;在无边界实体识别上,JE-DPW模型的抽取效果明显优于 E-BiLSTM 模型。JE-DPW模型比BiLSTM-WA模型对无边界实体识别的错误数少18个,表明在解码层使用BiLSTM网络对文本特征提取的能力强于使用单向LSTM网络,在实体抽取上所得到的语义信息更充分。
【参考文献】:
期刊论文
[1]基于神经网络的药物实体与关系联合抽取[J]. 曹明宇,杨志豪,罗凌,林鸿飞,王健. 计算机研究与发展. 2019(07)
[2]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[3]基于联合模型的藏文实体关系抽取方法研究[J]. 夏天赐,孙媛. 中文信息学报. 2018(12)
[4]基于条件随机场的农作物病虫害及农药命名实体识别[J]. 李想,魏小红,贾璐,陈昕,刘磊,张彦娥. 农业机械学报. 2017(S1)
[5]基于BLSTM的命名实体识别方法[J]. 冯艳红,于红,孙庚,孙娟娟. 计算机科学. 2018(02)
[6]知识图谱研究进展[J]. 漆桂林,高桓,吴天星. 情报工程. 2017(01)
[7]基于条件随机场的农业命名实体识别研究[J]. 王春雨,王芳. 河北农业大学学报. 2014(01)
本文编号:3644713
本文链接:https://www.wllwen.com/nykjlw/dzwbhlw/3644713.html
最近更新
教材专著