基于命名实体识别的医学术语发现及应用

发布时间:2024-05-10 05:38
  随着计算机应用于医疗事业的发展,电子病历逐渐成为我国医生记录患者入院、病史、治疗、出院的主要载体。电子病历的特殊作用决定了其必定包含丰富的医学实体以及复杂的实体关系。医学实体以及实体间的关系是构建医学知识的基础,因此本文提出用机器学习算法对中文电子病历进行命名实体识别以及关系抽取。针对中文电子病历实体识别问题,本文设计了一种基于卷积神经网络结合条件随机场(Convolutional Neural Network-Conditional Random Field,CNN-CRF)的实体识别算法框架。为得到高质量的词向量,本文将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习。为避免扩张卷积层数增加导致过拟合,本文采用迭代扩张卷积处理输入向量,并运用dropout随机丢弃一些连接,最后,利用条件随机场对网络的分类结果进行修正。该方法在中文电子病历上进行对比试验,从病历中提取出身体部位、疾病、症状、检查及治疗五类实体。实验结果表明,该方法能有效地辨别病历中的实体,其识别的精确率、召回率和F值分别为90.01%、90.62%、90.31...

【文章页数】:63 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
注释表
第1章 绪论
    1.1 研究背景与意义
    1.2 命名实体识别的研究现状
        1.2.1 传统机器学习方法
        1.2.2 深度学习方法
    1.3 关系抽取的研究现状
        1.3.1 有监督的关系抽取
        1.3.2 半监督的关系抽取
        1.3.3 无监督的关系抽取
    1.4 论文的主要工作
    1.5 论文结构
第2章 相关技术理论
    2.1 卷积神经网络
        2.1.1 卷积层
        2.1.2 池化层
        2.1.3 全连接层
    2.2 循环神经网络
        2.2.1 普通循环神经网络
        2.2.2 长短期记忆网络
    2.3 条件随机场
    2.4 标注策略
    2.5 评测方法
    2.6 本章小结
第3章 基于CNN-CRF的中文电子病历命名实体识别
    3.1 数据处理
        3.1.1 数据集及标注
        3.1.2 数据预处理
    3.2 网络结构
        3.2.1 扩张卷积
        3.2.2 迭代扩张卷积
        3.2.3 算法架构
    3.3 实验结果与分析
        3.3.1 实验设置
        3.3.2 实验结果对比分析
    3.4 本章小结
第4章 基于序列标注的中文电子病历实体关系抽取
    4.1 中文电子病历实体关系
    4.2 标注模式
    4.3 实验
        4.3.1 实验数据介绍
        4.3.2 实验数据预处理
        4.3.3 实验框架
        4.3.4 实验结果与分析
    4.4 本章小结
第5章 总结与展望
    5.1 工作总结
    5.2 未来展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果



本文编号:3968772

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3968772.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1106b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com