当前位置:主页 > 医学论文 > 医卫管理论文 >

基于半监督条件随机场的中文电子病历分词研究与应用

发布时间:2021-05-19 06:20
  电子病历(Electrical Medical Record,EMR)是医疗健康大数据的重要组成部分。一份电子病历由医护人员记录,通常包括数值化数据,医疗图像以及描述性文本。对电子病历进行分析利用对提升医疗服务水平具有重要意义。对电子病历中描述性文本的分析与处理依赖于电子病历的中文分词结果。与英语类语言不同,汉语语言使用字符表示语言实体,不同的字符组合表示不同的语言成分,如单词,主语,谓语,副词等。汉语常用字符约为5,000个,不同的字符组合表示了丰富多彩的汉语词汇。在应用自然语言处理技术处理中文电子病历中的描述性文本时,一个基本的前提是从中文字符序列中提取出相应的单词序列,并基于单词序列进行后续的词性标注、语义角色提取、文档分类等分析任务。随着电子病历的大量产生,如何有效的处理中文电子病历是一个急需解决的难题。中文分词作为中文自然语言处理的基本任务,得到了广泛的研究。学术界提出了一系列方法,并在公开数据集上取得了良好的效果。传统分词算法多基于有监督的学习方式,训练与测试数据集一般是来自于新闻等领域的语料。语料规模相对较小,但标注难度大。算法推广应用到其他领域,如医学、法律、金融时,面... 

【文章来源】:上海交通大学上海市 211工程院校 985工程院校 教育部直属院校

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 研究背景与现状
    1.1 电子病历
    1.2 电子病历处理研究现状
    1.3 中文自然语言处理研究现状
    1.4 分布式机器学习
    1.5 本课题主要研究内容
    1.6 论文安排
第二章 基于词典的半监督CRF中文分词研究
    2.1 条件随机场
        2.1.1 概率图模型
        2.1.2 一阶链式条件随机场
    2.2 基于CRF的中文分词算法
        2.2.1 标签体系
        2.2.2 前向向量与后向向量
        2.2.3 特征函数模板
    2.3 基于词典的半监督CRF中文分词算法
        2.3.1 半监督CRF
        2.3.2 基于词典匹配的中文电子病历分词
        2.3.3 由CRF预测中文字符序列的分词结果
    2.4 基于词典的半监督CRF分词算法性能研究
        2.4.1 词典的获取
        2.4.2 训练与测试数据
        2.4.3 特征函数选取
        2.4.4 性能分析
    2.5 本章总结
第三章 基于隐式狄利克雷分布的电子病历分类
    3.1 隐式狄利克雷分布
        3.1.1 贝叶斯网络
        3.1.2 LDA潜在语义分析
    3.2 基于参数服务器的LDA算法模型并行加速
    3.3 基于LDA的电子病历分类算法
        3.3.1 文档分类
        3.3.2 LDA与LR结合的电子病历分类
    3.4 基于LDA与LR的电子病历科室分类算法性能研究
        3.4.1 电子病历科室分类实验与分析
        3.4.2 基于参数服务器的LDA并行加速性能比较
    3.5 基于电子病历分词结果的隐含特征挖掘
    3.6 本章总结
第四章 系统设计与实现
    4.1 微服务架构
    4.2 系统设计
    4.3 负载均衡
    4.4 功能接口展示
    4.5 本章总结
第五章 全文总结
参考文献
致谢
攻读学位期间发表的学术论文



本文编号:3195282

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3195282.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c8851***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com