精准医学知识库构建中的生物医学命名实体识别研究
发布时间:2020-12-30 18:50
精准医学是通过整合分析患者生物医学数据,构建发现个体患病机制的知识图谱,制定个性化诊疗方案的前沿医学理念。以基因-变异-疾病关系为核心内容的生物医学知识库,对精准医学的科学研究和临床实践都具有不可替代的重要作用。面对海量且飞速增长的生物医学文献,通过人工抽取知识将耗费大量的时间与人力,因此利用机器学习技术自动挖掘生物医学文本逐渐成为精准医学知识库构建中的关键环节。生物医学命名实体识别,即用计算机自动识别出文本中表示指定生物医学实体类型的名称,是生物文献知识挖掘过程中基础而关键的一步。本文以精准医学知识库构建为背景,对生物医学文献中的基因、基因变异、疾病三种命名实体识别的方法和技术开展了系统研究,提出了结合深度神经网络和传统方法,用于识别基因变异实体的新算法模型,开发了识别和标注三种实体的软件系统。主要研究结果如下:1.对生物医学命名实体识别算法的研究现状进行了调查,并对算法中采用的各种方法模型展开了研究。调研发现当前主流的疾病与基因变异识别模型大多基于统计机器学习算法,需要繁复的人工特征工程,且依赖设计人员的专业知识背景和自然语言处理经验。同时,基因命名实体识别算法较为成熟,已经存在多...
【文章来源】:军事科学院北京市
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图3.1分布式词向量在二维向量空间中示例图
军事科学院硕士学位论文过反复实验进行筛选。而无监督的词向量与有监Network)结合的端到端(End-to-End)的学习方式,避层神经网络自主提取输入数据中的特征,能够学感知机(Multilayer Perceptron,MLP)[41]是一种前向的人量到一组输出向量,层与层之间为全联接。设输入 N=|x|。如图 3.2 所示,每个输入单元 xi都由一个 映射到隐藏层单元 hj。接着把隐藏层单元作为下络中添加多个隐藏层对输入数据进行深度的学习
图 3.3 使用 Dropout 的神经网络模型Dropout 算法一方面使得整体训练过程相当于同时训练多个神经网络取平均结果,类似机器学习中训练多个分类器再综合的作法,通过集成多个模型减少过拟合。另一方面也减少了神经元之间复杂的共适应关系,防止了某些特征仅在其他特定特征出现时有效的情况,提升了模型的泛化能力。本文在训练深度神经网络中加入 dropout,以训练泛化性能更好的模型,防止过拟合。3.3.5 循环神经网络如果在 MLP 的神经元上增加一个循环连接,就可以得到循环神经网络(Recurrent Neural Networks, RNNs)[49]。如图 3.4 所示,在 RNN 中,神经元不仅可以利用当前输入还可以结合之前隐藏层单元的输出映射本次输出,这样就给予了神经网络一定的记忆能力,能够利用前序数据中的信息对当前输出进行处理,更有助于处理文本信息。
【参考文献】:
期刊论文
[1]MBNER:面向生物医学领域的多种实体识别系统[J]. 杨娅,杨志豪,林鸿飞,宫本东,王健. 中文信息学报. 2016(01)
本文编号:2948126
【文章来源】:军事科学院北京市
【文章页数】:59 页
【学位级别】:硕士
【部分图文】:
图3.1分布式词向量在二维向量空间中示例图
军事科学院硕士学位论文过反复实验进行筛选。而无监督的词向量与有监Network)结合的端到端(End-to-End)的学习方式,避层神经网络自主提取输入数据中的特征,能够学感知机(Multilayer Perceptron,MLP)[41]是一种前向的人量到一组输出向量,层与层之间为全联接。设输入 N=|x|。如图 3.2 所示,每个输入单元 xi都由一个 映射到隐藏层单元 hj。接着把隐藏层单元作为下络中添加多个隐藏层对输入数据进行深度的学习
图 3.3 使用 Dropout 的神经网络模型Dropout 算法一方面使得整体训练过程相当于同时训练多个神经网络取平均结果,类似机器学习中训练多个分类器再综合的作法,通过集成多个模型减少过拟合。另一方面也减少了神经元之间复杂的共适应关系,防止了某些特征仅在其他特定特征出现时有效的情况,提升了模型的泛化能力。本文在训练深度神经网络中加入 dropout,以训练泛化性能更好的模型,防止过拟合。3.3.5 循环神经网络如果在 MLP 的神经元上增加一个循环连接,就可以得到循环神经网络(Recurrent Neural Networks, RNNs)[49]。如图 3.4 所示,在 RNN 中,神经元不仅可以利用当前输入还可以结合之前隐藏层单元的输出映射本次输出,这样就给予了神经网络一定的记忆能力,能够利用前序数据中的信息对当前输出进行处理,更有助于处理文本信息。
【参考文献】:
期刊论文
[1]MBNER:面向生物医学领域的多种实体识别系统[J]. 杨娅,杨志豪,林鸿飞,宫本东,王健. 中文信息学报. 2016(01)
本文编号:2948126
本文链接:https://www.wllwen.com/tushudanganlunwen/2948126.html