运用自然语言处理技术从中文电子化病历系统中提取临床有用信息

发布时间:2021-08-14 09:30
  目的:设计一种基于自然语言处理(natural language processing,NLP)技术的算法,用以从中文电子化病历(electronic medical records,EMRs)中提取肝细胞肝癌(hepatocellular carcinoma,HCC)患者的临床有用信息;并运用这些信息对患者进行HCC分期。材料与方法:从中文EMRs系统中收集92例HCC患者的临床资料,包括手术记录、影像学报告和病理报告。我们将这些患者随机分为训练集(n=60)和测试集(n=32)。以人工注释的结果作为金标准,使用手术记录的训练集开发基于规则的算法和混合型算法。性能较优的算法将用于处理其他临床资料。通过计算精确匹配和部分匹配两种策略的准确度(precision,P)、召回率(recall,R)和F-score来评估算法性能。通过与人工分期结果相比较,对分期算法进行性能评估。结果:当基于规则和混合型两种算法处理手术记录的测试集数据时,其精确匹配和部分匹配两种策略的P、R和F-score均≥80%。基于规则的算法(其性能优于混合型算法)在处理其他三种类型的文档时,也均表现出良好的提取性能。... 

【文章来源】:重庆医科大学重庆市

【文章页数】:53 页

【学位级别】:硕士

【部分图文】:

运用自然语言处理技术从中文电子化病历系统中提取临床有用信息


基于NLP的处理中文EMR的算法框架及其在HCC分期中的应用

过程图,信息提取,过程图,结节


结节位置 (Nodule location) 结节 (Nodule) C4结节大小 (Nodule size) 结节 (Nodule) C2结节质地 (Nodule texture) 结节 (Nodule) C1单发或多发(Solitary or Multiple)肿瘤|肿块|包块|子灶|卫星灶(Tumor | mass | satellite lesions)C1我们开发了四个规则类别,包括 C1:否定|数字|形态+关键词,例如:无腹水,少量积液,稍硬化; C2:关键词+数量+单位,例如:腹水 100 毫升; C3:简要说明,例如:肿块边缘较清晰; C4:长描述,例如:可见肿瘤主要位于 S6 段,部分位于 S5 段。同一提取域的不同关键词用“|”分隔。 CBD:胆总管。We developed four rule categories,including C1: Negation | numeral | modality + keyword,e.g.无腹水,少量积液,稍硬化; C2: Keyword + quantity + unit,e.g. 腹水 100ml; C3: Short description,e.g. 肿块边缘较清晰; and C4: Long description,e.g. 可见肿瘤主要位于 S6 段,部分位于 S5 段.Different keywords of the same field were split by "|". CBD: common bile duct.

差异程度,患者,算法,计算结果


重庆医科大学硕士研究生学位论文准。大多数患者(n=29)的评分在 0-2 分之间。总体而言,基于 NLP 算法的评分结果中,有 75%的患者(n = 24)的 CLIP 评分与金标准一致。CLIP 评分与 NLP和金标准的差异分别为(12.5%)-1 分的有四名患者,1 分的三名患者(9.5%)和2 分的一名患者(3.1%)(图 4B)。

【参考文献】:
期刊论文
[1]信息抽取研究综述[J]. 郭喜跃,何婷婷.  计算机科学. 2015(02)



本文编号:3342214

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3342214.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e6417***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com