湿地实体识别与开放关系抽取的研究
发布时间:2021-06-05 16:44
湿地文献数据研究是湿地研究中重要的一部分,传统的湿地文献研究方法主要是对湿地文献论文作者合作度,合著率,核心作者,论文引用数量,论文高频关键词的分析,缺少对湿地文献文本语义方面的分析。湿地文献文本数据本身具有复杂性和开放性,统计方法难以分析出湿地文献所表达的具体实体信息和实体关系。因此本文的主要研究课题是湿地数据的命名实体识别和开放语义关系抽取,主要研究内容和工作分为以下三个部分。第一部分是湿地命名实体识别。湿地领域命名实体包括动物实体,植物实体,人名,地名,组织机构名实体等。针对人名,地名,组织机构名的标准命名实体识别任务,本文设计了一种结合双向LSTM和CNN的深度识别方法,在双向LSTM深度网络中加入CNN单元来抽取单词的字符特征,对比基于条件随机场的命名实体识别工具Stanford Open NER识别结果,该方法在人名,地名,组织机构名抽取精准率,召回率,F1值上面有着不同程度的提升。对于其他湿地领域实体,分别采用Google Geocoding来对WGS84坐标数据进行解析,构建专业领域知识词典来对动物实体,植物实体进行识别。第二部分主要研究湿地文献实体关系抽取方法。湿地文...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
一循环神经网络的结构
重要的组成部分是状态单元s(t)单元有类似的线性自环。然而,此处自环??(或相关联的时间常数)由遗忘门(forget?gate)?/;(t)控制(时刻t和细胞??sigmoid单元将权重设置为0和1之间的值:??//°?=?cr(b;?+?U(.x^?+?5:;?(2-11)??式(2-11)中xW是当前输入向量,是当前隐藏层向量,11?包含所有LSTM??输出。bf,Uf?,Wf分别是偏置、输入权重和遗忘门的循环权重。因此LSTM??部状态以如(2-12)方式更新,其中有一个条件的自环权重:??s(0?=?+?gW^bi?+?^?+?^?.?w.jh^?(2-12)??中b,U,W分别是LSTM细胞中的偏置、输入权重和遗忘门的循环权重。??入门(external?input?gate)单元以类似遗忘门(使用sigmoid获得一个0??间的值)的方式更新,但有自身的参数??g??=?a(bf?+?z;?uf.xf?+?S;?(2-13)??TM细胞的输出也可以由输出门(output?gate)?关闭(使用sigmoid??为门控):??
种比较简单得组织机构名称,抽取的结果相同比较准确,例句2说明对于湿地献中出现的特有名称北大西洋涛动the?Arctic/North?Atlantic?Oscillation?(AO/NAO),两方法都错误的认为是一个组织机构名称,例句3说明对于文章发表的期刊的抽结果,深度网络的结果往往认为期刊名称是一个组织机构名称,而条件随机场的法认为不是一个组织机构名称。??如上述例子所示,实验分别在Abstract抽样500条结果和s中抽样500条进统计,抽取的结果如表3-11图3-7所示:??表3-11机构名抽取结果??Table?3-11?Organzition?Named?Entity?Results??Method?Stanford?NER?BiLSTM+CNN??Abstract?References?Abstract?References??Prec?81.23%?85.45%?52.47%?93.27%??Recall?58.27%?40.32%?87.21%?95.34%???FI?67.86%?54.79%?65.52%?94.29%????????????——??—?????
【参考文献】:
期刊论文
[1]融合依存信息Attention机制的药物关系抽取研究[J]. 李丽双,钱爽,周安桥,刘阳,郭元凯. 中文信息学报. 2019(02)
[2]基于双向LSTM和GBDT的中医文本关系抽取模型[J]. 罗计根,杜建强,聂斌,熊旺平,刘蕾,贺佳. 计算机应用研究. 2019(12)
[3]医学知识图谱构建研究进展[J]. 修晓蕾,吴思竹,崔佳伟,邬金鸣,钱庆. 中华医学图书情报杂志. 2018(10)
[4]基于文献计量和知识图谱的高原湿地研究热点分析[J]. 张国飞,杜湘. 西南林业大学学报(社会科学). 2018(01)
[5]中医药知识图谱构建[J]. 贾李蓉,刘静,于彤,董燕,朱玲,高博,刘丽红. 医学信息学杂志. 2015(08)
[6]基于树核函数的中文语义角色标注[J]. 王步康,王红玲,周国栋. 计算机工程. 2011(22)
[7]基于特征组合的中文语义角色标注[J]. 李世奇,赵铁军,李晗静,刘鹏远,刘水. 软件学报. 2011(02)
[8]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[9]基于条件随机场的语义角色标注(英文)[J]. 于江德,樊孝忠,庞文博,余正涛. Journal of Southeast University(English Edition). 2007(03)
[10]基于最大熵分类器的语义角色标注[J]. 刘挺,车万翔,李生. 软件学报. 2007(03)
本文编号:3212534
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
一循环神经网络的结构
重要的组成部分是状态单元s(t)单元有类似的线性自环。然而,此处自环??(或相关联的时间常数)由遗忘门(forget?gate)?/;(t)控制(时刻t和细胞??sigmoid单元将权重设置为0和1之间的值:??//°?=?cr(b;?+?U(.x^?+?5:;?(2-11)??式(2-11)中xW是当前输入向量,是当前隐藏层向量,11?包含所有LSTM??输出。bf,Uf?,Wf分别是偏置、输入权重和遗忘门的循环权重。因此LSTM??部状态以如(2-12)方式更新,其中有一个条件的自环权重:??s(0?=?+?gW^bi?+?^?+?^?.?w.jh^?(2-12)??中b,U,W分别是LSTM细胞中的偏置、输入权重和遗忘门的循环权重。??入门(external?input?gate)单元以类似遗忘门(使用sigmoid获得一个0??间的值)的方式更新,但有自身的参数??g??=?a(bf?+?z;?uf.xf?+?S;?(2-13)??TM细胞的输出也可以由输出门(output?gate)?关闭(使用sigmoid??为门控):??
种比较简单得组织机构名称,抽取的结果相同比较准确,例句2说明对于湿地献中出现的特有名称北大西洋涛动the?Arctic/North?Atlantic?Oscillation?(AO/NAO),两方法都错误的认为是一个组织机构名称,例句3说明对于文章发表的期刊的抽结果,深度网络的结果往往认为期刊名称是一个组织机构名称,而条件随机场的法认为不是一个组织机构名称。??如上述例子所示,实验分别在Abstract抽样500条结果和s中抽样500条进统计,抽取的结果如表3-11图3-7所示:??表3-11机构名抽取结果??Table?3-11?Organzition?Named?Entity?Results??Method?Stanford?NER?BiLSTM+CNN??Abstract?References?Abstract?References??Prec?81.23%?85.45%?52.47%?93.27%??Recall?58.27%?40.32%?87.21%?95.34%???FI?67.86%?54.79%?65.52%?94.29%????????????——??—?????
【参考文献】:
期刊论文
[1]融合依存信息Attention机制的药物关系抽取研究[J]. 李丽双,钱爽,周安桥,刘阳,郭元凯. 中文信息学报. 2019(02)
[2]基于双向LSTM和GBDT的中医文本关系抽取模型[J]. 罗计根,杜建强,聂斌,熊旺平,刘蕾,贺佳. 计算机应用研究. 2019(12)
[3]医学知识图谱构建研究进展[J]. 修晓蕾,吴思竹,崔佳伟,邬金鸣,钱庆. 中华医学图书情报杂志. 2018(10)
[4]基于文献计量和知识图谱的高原湿地研究热点分析[J]. 张国飞,杜湘. 西南林业大学学报(社会科学). 2018(01)
[5]中医药知识图谱构建[J]. 贾李蓉,刘静,于彤,董燕,朱玲,高博,刘丽红. 医学信息学杂志. 2015(08)
[6]基于树核函数的中文语义角色标注[J]. 王步康,王红玲,周国栋. 计算机工程. 2011(22)
[7]基于特征组合的中文语义角色标注[J]. 李世奇,赵铁军,李晗静,刘鹏远,刘水. 软件学报. 2011(02)
[8]命名实体识别研究进展综述[J]. 孙镇,王惠临. 现代图书情报技术. 2010(06)
[9]基于条件随机场的语义角色标注(英文)[J]. 于江德,樊孝忠,庞文博,余正涛. Journal of Southeast University(English Edition). 2007(03)
[10]基于最大熵分类器的语义角色标注[J]. 刘挺,车万翔,李生. 软件学报. 2007(03)
本文编号:3212534
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3212534.html
最近更新
教材专著