中草药文献知识抽取方法研究与应用
发布时间:2022-02-14 23:44
随着中医现代化的提出,与中草药相关的文献资源迅速增长。这些文本内容中隐藏着诸多中草药实体知识及关系,如何从非结构化的文本中挖掘有意义的实体关系是目前信息抽取领域的研究热点,也是构建知识库或实体关系网络(知识图谱)的基础。然而目前该领域的研究并不是很多,针对现有的一些研究可以概括为三个方面:一是实体关系的抽取多基于中文语料,然而英文文献中也包含中草药知识。二是抽取方法多基于传统算法,准确率并不是很高,所以有必要结合深度学习技术做进一步的研究。三是对抽取结果的利用,应结合领域知识做进一步的应用。因此本文的主要工作有以下几个方面:一、从PubMed数据库中检索和收集了中草药相关的英文文章。结合中药与其他实体在文献中的关系描述,定义了中药与疾病、中药与化学物质这两种定向关系。在医学工作者的帮助下构建了实体关系抽取语料库,以实现对关系抽取问题的研究。二、为了提高中草药相关的实体关系抽取准确率,本文结合深度学习技术进行了算法的研究。首先提出了SETATT-CNN模型,该模型创新性体现在根据分段输入特征提出了具有分段注意力机制的SEGATT层。在模型训练上设计了具有权值系数的交叉熵损失函数。其次为了...
【文章来源】:吉林大学吉林省211工程院校985工程院校教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【图文】:
本文主要研究内容
第2章相关技术介绍8第2章相关技术介绍本章节将从实体关系抽取问题的定义和解决方法、词特征表示方法及深度学习技术三个方面进行介绍,为本文研究问题的解决奠定基矗2.1实体关系抽取2.1.1实体关系抽取概述信息抽取问题最早始于MUC会议。在1998年最后一次MUC会议上初步提出和确定了关系抽取问题,并发布了相关数据集[34],之后便有很多学者关注了实体关系抽取问题。实体关系抽取的定义可以这样描述:“在预先识别出实体的基础上判断成对实体之间的关系”。实体关系抽取问题是目前信息抽取领域的重要研究课题,尤其是基于文本的实体关系抽取,即从非结构化的文本中判定实体对的关系,提取文本中结构化的语义知识。基于文本形式的实体关系抽取问题可以抽象的描述为:基于文本语义确定实体e1和实体e2的关系r,其描述形式为(e1,r,e2);其实体在文本中的存在形式如图2.1所示。解决实体关系抽取的方法主要包含有监督和无监督两种,目前针对该文本形式的实体关系抽取解决方式主要采用有监督的方法,有监督即是在提前给定已标注实体关系数据集的情况下学习和训练模型,然后根据训练好的模型去预测未标注的实体关系。图2.1基于文本的实体关系抽取样例2.1.2关系抽取的方法关系抽取问题的解决方法主要分为四种,其分别为:基于共现的方法、基于规则的方法、基于机器学习的方法和目前较为流行的深度学习方法。1.基于共现的方法当两个实体同时存在时,该方法主要通过两个假设性判定去确定实体之间的
第2章相关技术介绍10题。该方法的应用能够很好的克服传统实体关系抽取方法的不足,使准确率有了一定的保障。但是仍旧存在一定的不足,特征表示阶段需要构建大量的特征工程,例如上下文特征、最短路径特征、领域知识特征、解析树和依赖图特征的组合、句法和短语辅助功能等。该方法的最大挑战就是首先选择能够利于模型学习和训练的良好特征,其次就是从文本中准确提取这些特征,避免误差传递。因此,机器学习方法在进行解决实体关系抽取问题时需要大量的特征工程才能辅助模型挖掘出文本中的语义特征从而提高关系分类的准确性。4.深度学习方法与传统的机器学习方法相比具有深层结构的神经网络模型在解决NLP问题上具有较好的效果。其主要原因在于文本经过词嵌入特征编码之后,其高维度的文本特征包含了大量文本语义信息,可以全部输入到具有大量权值参数的神经网络模型中进行训练。多隐层形式的神经网络模型具有优异的特征学习能力,学习到的特征对文本的原始数据具有更本质的刻画能力,从而更好的为实体关系分类任务服务。深度学习方法具有较强的泛化性能,在生物医学领域已经有了大量的研究和应用。该方法能够减少手动构建特征工程的繁琐,但并不影响准确率的提升。在解决实体关系抽取问题上,其实现流程和机器学习方法类似,唯一不同的就是特征表示阶段的Embedding过程不需要进行特征降维便可直接输入模型。图2.2实体关系抽取流程图总的来说四种方法都可以应用于解决实体关系抽取问题上,其不同方法解决该问题的流程如图2.2所示。不难发现,采用深度学习方法进行解决实体关系抽取具有较好的应用前景。
【参考文献】:
期刊论文
[1]BERST: An Engine and Tool for Exploring Biomedical Entities and Relationships[J]. BAI Tian,GE Yan,YANG Changqing,LIU Xiaohua,GONG Leiguang,WANG Ye,HUANG Lan. Chinese Journal of Electronics. 2019(04)
[2]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[3]中医养生知识图谱的构建与应用[J]. 于彤,李敬华,于琦,田野,孙晓峰,徐丽丽,张竹绿. 中国数字医学. 2017(12)
[4]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[5]中医药知识图谱构建与应用[J]. 阮彤,孙程琳,王昊奋,方之家,殷亦超. 医学信息学杂志. 2016(04)
[6]中医自然语言处理研究方法综述[J]. 柴华,路海明,刘清晨. 医学信息学杂志. 2015(10)
[7]中医药知识图谱构建[J]. 贾李蓉,刘静,于彤,董燕,朱玲,高博,刘丽红. 医学信息学杂志. 2015(08)
[8]中医药学语言系统的语义网络框架:一个面向中医药领域的规范化顶层本体[J]. 于彤,崔蒙,李海燕,杨硕,贾李蓉,张竹绿. 中国数字医学. 2014(01)
本文编号:3625482
【文章来源】:吉林大学吉林省211工程院校985工程院校教育部直属院校
【文章页数】:84 页
【学位级别】:硕士
【图文】:
本文主要研究内容
第2章相关技术介绍8第2章相关技术介绍本章节将从实体关系抽取问题的定义和解决方法、词特征表示方法及深度学习技术三个方面进行介绍,为本文研究问题的解决奠定基矗2.1实体关系抽取2.1.1实体关系抽取概述信息抽取问题最早始于MUC会议。在1998年最后一次MUC会议上初步提出和确定了关系抽取问题,并发布了相关数据集[34],之后便有很多学者关注了实体关系抽取问题。实体关系抽取的定义可以这样描述:“在预先识别出实体的基础上判断成对实体之间的关系”。实体关系抽取问题是目前信息抽取领域的重要研究课题,尤其是基于文本的实体关系抽取,即从非结构化的文本中判定实体对的关系,提取文本中结构化的语义知识。基于文本形式的实体关系抽取问题可以抽象的描述为:基于文本语义确定实体e1和实体e2的关系r,其描述形式为(e1,r,e2);其实体在文本中的存在形式如图2.1所示。解决实体关系抽取的方法主要包含有监督和无监督两种,目前针对该文本形式的实体关系抽取解决方式主要采用有监督的方法,有监督即是在提前给定已标注实体关系数据集的情况下学习和训练模型,然后根据训练好的模型去预测未标注的实体关系。图2.1基于文本的实体关系抽取样例2.1.2关系抽取的方法关系抽取问题的解决方法主要分为四种,其分别为:基于共现的方法、基于规则的方法、基于机器学习的方法和目前较为流行的深度学习方法。1.基于共现的方法当两个实体同时存在时,该方法主要通过两个假设性判定去确定实体之间的
第2章相关技术介绍10题。该方法的应用能够很好的克服传统实体关系抽取方法的不足,使准确率有了一定的保障。但是仍旧存在一定的不足,特征表示阶段需要构建大量的特征工程,例如上下文特征、最短路径特征、领域知识特征、解析树和依赖图特征的组合、句法和短语辅助功能等。该方法的最大挑战就是首先选择能够利于模型学习和训练的良好特征,其次就是从文本中准确提取这些特征,避免误差传递。因此,机器学习方法在进行解决实体关系抽取问题时需要大量的特征工程才能辅助模型挖掘出文本中的语义特征从而提高关系分类的准确性。4.深度学习方法与传统的机器学习方法相比具有深层结构的神经网络模型在解决NLP问题上具有较好的效果。其主要原因在于文本经过词嵌入特征编码之后,其高维度的文本特征包含了大量文本语义信息,可以全部输入到具有大量权值参数的神经网络模型中进行训练。多隐层形式的神经网络模型具有优异的特征学习能力,学习到的特征对文本的原始数据具有更本质的刻画能力,从而更好的为实体关系分类任务服务。深度学习方法具有较强的泛化性能,在生物医学领域已经有了大量的研究和应用。该方法能够减少手动构建特征工程的繁琐,但并不影响准确率的提升。在解决实体关系抽取问题上,其实现流程和机器学习方法类似,唯一不同的就是特征表示阶段的Embedding过程不需要进行特征降维便可直接输入模型。图2.2实体关系抽取流程图总的来说四种方法都可以应用于解决实体关系抽取问题上,其不同方法解决该问题的流程如图2.2所示。不难发现,采用深度学习方法进行解决实体关系抽取具有较好的应用前景。
【参考文献】:
期刊论文
[1]BERST: An Engine and Tool for Exploring Biomedical Entities and Relationships[J]. BAI Tian,GE Yan,YANG Changqing,LIU Xiaohua,GONG Leiguang,WANG Ye,HUANG Lan. Chinese Journal of Electronics. 2019(04)
[2]深度学习实体关系抽取研究综述[J]. 鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴. 软件学报. 2019(06)
[3]中医养生知识图谱的构建与应用[J]. 于彤,李敬华,于琦,田野,孙晓峰,徐丽丽,张竹绿. 中国数字医学. 2017(12)
[4]卷积神经网络研究综述[J]. 周飞燕,金林鹏,董军. 计算机学报. 2017(06)
[5]中医药知识图谱构建与应用[J]. 阮彤,孙程琳,王昊奋,方之家,殷亦超. 医学信息学杂志. 2016(04)
[6]中医自然语言处理研究方法综述[J]. 柴华,路海明,刘清晨. 医学信息学杂志. 2015(10)
[7]中医药知识图谱构建[J]. 贾李蓉,刘静,于彤,董燕,朱玲,高博,刘丽红. 医学信息学杂志. 2015(08)
[8]中医药学语言系统的语义网络框架:一个面向中医药领域的规范化顶层本体[J]. 于彤,崔蒙,李海燕,杨硕,贾李蓉,张竹绿. 中国数字医学. 2014(01)
本文编号:3625482
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3625482.html
最近更新
教材专著