运用自然语言处理技术从中文电子化病历系统中提取临床有用信息

发布时间：2021-08-14 09:30

　　目的:设计一种基于自然语言处理（natural language processing,NLP）技术的算法,用以从中文电子化病历（electronic medical records,EMRs）中提取肝细胞肝癌（hepatocellular carcinoma,HCC）患者的临床有用信息;并运用这些信息对患者进行HCC分期。材料与方法:从中文EMRs系统中收集92例HCC患者的临床资料,包括手术记录、影像学报告和病理报告。我们将这些患者随机分为训练集（n=60）和测试集（n=32）。以人工注释的结果作为金标准,使用手术记录的训练集开发基于规则的算法和混合型算法。性能较优的算法将用于处理其他临床资料。通过计算精确匹配和部分匹配两种策略的准确度（precision,P）、召回率（recall,R）和F-score来评估算法性能。通过与人工分期结果相比较,对分期算法进行性能评估。结果:当基于规则和混合型两种算法处理手术记录的测试集数据时,其精确匹配和部分匹配两种策略的P、R和F-score均≥80%。基于规则的算法（其性能优于混合型算法）在处理其他三种类型的文档时,也均表现出良好的提取性能。...

【文章来源】：重庆医科大学重庆市

【文章页数】：53 页

【学位级别】：硕士

【部分图文】：

基于NLP的处理中文EMR的算法框架及其在HCC分期中的应用

过程图,信息提取,过程图,结节

结节位置 (Nodule location) 结节 (Nodule) C4结节大小 (Nodule size) 结节 (Nodule) C2结节质地 (Nodule texture) 结节 (Nodule) C1单发或多发(Solitary or Multiple)肿瘤|肿块|包块|子灶|卫星灶(Tumor | mass | satellite lesions)C1我们开发了四个规则类别，包括 C1：否定|数字|形态+关键词，例如：无腹水，少量积液，稍硬化; C2：关键词+数量+单位，例如：腹水 100 毫升; C3：简要说明，例如：肿块边缘较清晰; C4：长描述，例如：可见肿瘤主要位于 S6 段，部分位于 S5 段。同一提取域的不同关键词用“|”分隔。 CBD：胆总管。We developed four rule categories，including C1: Negation | numeral | modality + keyword，e.g.无腹水，少量积液，稍硬化; C2: Keyword + quantity + unit，e.g. 腹水 100ml; C3: Short description，e.g. 肿块边缘较清晰; and C4: Long description，e.g. 可见肿瘤主要位于 S6 段，部分位于 S5 段.Different keywords of the same field were split by "|". CBD: common bile duct.

差异程度,患者,算法,计算结果

重庆医科大学硕士研究生学位论文准。大多数患者（n=29）的评分在 0-2 分之间。总体而言，基于 NLP 算法的评分结果中，有 75％的患者（n = 24）的 CLIP 评分与金标准一致。CLIP 评分与 NLP和金标准的差异分别为（12.5％）-1 分的有四名患者，1 分的三名患者（9.5％）和2 分的一名患者（3.1％）（图 4B）。

【参考文献】：
期刊论文
[1]信息抽取研究综述[J]. 郭喜跃,何婷婷. 计算机科学. 2015(02)

本文编号：3342214

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3342214.html

上一篇：基于学习分析的微信公众平台中社会性交互研究 ——以《现代教育技术》公众平台为例
下一篇：基于双目视觉的水面漂浮物监测研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|