当前位置:主页 > 医学论文 > 医卫管理论文 >

临床文本数据信息挖掘去识别技术研究

发布时间:2020-05-29 04:21
【摘要】:【目的】本研究针对临床文本患者隐私保护问题,构建高质量临床文本去识别方法,在保证数据价值的基础上,最大化保护病人隐私,从而有助于大数据的共享、融合和利用,我们旨在(1)描述中文临床文本中PHI的分布情况,(2)提出一种基于机器学习方法的中文临床文本去识别方法,以及(3)验证高效的机器学习算法在中文临床文本去识别研究中的有效性。【方法】基于从四川省雅安市的一个区域人口健康信息平台中随机抽取的14719条出院小结数据,我们构建了一个条件随机域(Conditional Random Fields,CRF)模型来识别临床文本的PHI,并针对样本中数量较少的PHI类别设计相应的正则表达式来优化综合识别结果。【结果】通过大量的人工标注,本研究构建了带有PHI标记的中文临床文本语料库,临床文本的描述性统计结果显示,在中文临床文本中PHI分布的广泛性和多样性。去识别模型评估结果显示,为分词工具添加临床概念外部词典提高了去识别模型的表现;在词汇特征基础上加入字典特征后,基于CRF的去标识模型的整体性能得到了显著改善,F值从97.73%增长到98.73%;在CRF模型基础上结合后处理规则后F值增加到0.9878。【结论】随着电子病历在卫生保健机构的迅速普及,迫切需要能够分析中文临床文本中患者特定信息的工具。本研究中CRF算法在临床文本去识别中的良好表现,显示出了该模型应用于中文临床文本去识别的潜力,为中文临床文本去识别研究提供了一个高效的解决方案。
【图文】:

过程图,模型识别,过程,训练语料


华 中 科 技 大 学 硕 士 学 位 论 文 机器学习的方法:命名实体识别可以被看作是对序列进行标注的问题,,所以可以利用 CRF 这样专门的序列标注模型来进行命名实体识别任务 在众多的机器学习模型中,CRF 由于自身的特点在诸多方面的表现都好于其他的识别模型,可以很好的识别众多类型的命名实体 在 CRF 模型序列标注任务过程中,基于带有标签的样本数据 分词和词性标注等预处理过程以及人工构建的特征集可以生成训练语料,利用训练语料通过训练生成 CRF 模型,并将生成的 CRF 模型应用于测试预料,从而得到识别结果

医疗机构,文本,级别,实体


华 中 科 技 大 学 硕 士 学 位 论 文医疗机构的临床文本中的各类别 PHI 实体分布密度不同,这说明临床文本 PHI 实布的密度与医疗机构的级别有关,如医疗机构 病人姓名和地理位置类别的实体分布于初级医疗机构的临床文本中,而医生和电话类别的实体主要来自于二级医构的临床文本中,而日期和 ID 类别的实体主要分布于三级医疗机构的临床文本中
【学位授予单位】:华中科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R-05

【参考文献】

相关期刊论文 前4条

1 杨锦锋;于秋滨;关毅;蒋志鹏;;电子病历命名实体识别和实体关系抽取研究综述[J];自动化学报;2014年08期

2 徐益辉;姚琴;袁冬生;周天舒;李劲松;;中文医疗文本匿名化方法研究[J];中国数字医学;2014年07期

3 邹北骥;;大数据分析及其在医疗领域中的应用[J];计算机教育;2014年07期

4 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期

相关硕士学位论文 前6条

1 杨晨浩;基于深度学习的中文电子病历实体修饰与关系抽取研究及算法平台开发[D];哈尔滨工业大学;2016年

2 王国昱;基于深度学习的中文命名实体识别研究[D];北京工业大学;2015年

3 曲春燕;中文电子病历命名实体识别研究[D];哈尔滨工业大学;2015年

4 张立邦;基于半监督学习的中文电子病历分词和名实体挖掘[D];哈尔滨工业大学;2014年

5 史海峰;基于CRF的中文命名实体识别研究[D];苏州大学;2010年

6 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年



本文编号:2686386

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2686386.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d1178***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com