基于模式匹配的非结构化病理报告的信息抽取方法

发布时间：2020-11-09 21:36

　　随着互联网信息技术的快速发展,国内各大医院的信息化建设取得长足进步。同时,也为医院积累了丰富的非结构化临床文档数据。其中,病理报告就是一类非常重要的非结构化临床文档,其主要内容是由病理科医生采用自然语言记录的文本格式数据,其内容包括病人基本信息、肉眼可见标本信息、镜下可见标本信息等。传统对病理报告的处理方法主要是依赖于主治医生凭借其经验对病理报告进行人工处理,其实质就是通过人工干预对病理报告数据进行结构化处理。但是,在当前大数据背景下,呈几何级数增长的病理报告数据使得人工结构化病理文本数据面临巨大困难,不仅耗时耗力,且正确率不能保证。本文结合病理文本的结构特点和病理报告的书写规范,借助规则提取、模式匹配、泛化等技术手段,设计并实现了一个完整的病理文本数据的结构化处理系统,以支持病理文本数据的结构化信息抽取。本文的具体内容主要包括:1)本文首先介绍了病理报告结构化处理相关技术,包括中文分词技术、信息抽取方法、模式匹配算法以及逆向最短编辑距离泛化方法等。2)分析了病理文本数据的结构特点,建立了一个病理样本名词库,提出一种基于规则的标本名提取算法,通过词库、词性以及字词在文本数据中的位置等信息综合筛选出病理文本的标本名。3)通过人工干预的学习方式抽取病理样本信息建立初始模式库。在此基础上,结合病理报告的文本结构特征,通过自定义的模式匹配算法,最终得出病理样本模式。4)根据逆向最短编辑距离泛化方法,提出基于正向最短编辑距离的模式泛化方法,最终得到通用性较强的抽取模式。5)对新录入的病理文本数据,套用现有模式抽取信息,达到即时结构化的目的。本文采用了真实数据进行测试,结果表明本系统在保证召回率92%的基础上正确率达到88%,病理报告的结构化结果能够满足预期要求。因此,该系统的实现不仅可以辅助医生提高诊断效率,而且能够为将来疾病的病理诊断提供数据支持。
【学位单位】：东华大学
【学位级别】：硕士
【学位年份】：2017
【中图分类】：R197.323;TP391.1
【部分图文】：

示意图,编辑距离,泛化方法,模式

图 2-2 基于逆向最短编辑距离的模式泛化示意图述泛化方法得出的泛化结果，可以得出结论，即最终得到的泛化模用性较强的要求。该泛化方法的优点就是在编辑距离的基础上考虑果更理想。结点阐述了在非结构化病理文本数据的信息抽取过程中所涉及到的介绍了中文分词工具；其次介绍了信息抽取的概念及方法；然后介；最后介绍了逆向最短编辑距离泛化方法并展示了其泛化结果。

格式转化,文件,元数据,信息抽取

基于模式匹配的非结构化病理报告的信息抽取方法首先，元数据文件的获取。现存的数据文件格式多种多样，如果对所有格式的文档都进行抽取元数据的话，那么将会花费很大代价，得不偿失，所以我们主要针对文本文件、word 文件、excel 文件三种格式的文件进行信息抽取。因为不同格式类型的文件的元数据获取的方法不尽相同。所以，在获取元数据之前，我们要把各种格式的文件转化为统一的XML 文件，三种不同格式的文件转化为 XML 文件的方法如图 3-1 所示。

模式图,模式,编辑距离,标本

图 4-1 模式泛化其中，Xk 和 Yk 分别是模式 X 和模式 Y 的标本名，Xi 和 Yi 分别是模式 X 和模式 Y指标名。通过上述泛化流程可以发现，当标本名相同时，只需要把标本名相同的模式合并就可得到泛化后的新模式；但当标本名不同时，需要根据待泛化模式 X 和 Y 的编辑距离矩 Hmn构造正向最短编辑距离路径 L，在构造最短编辑路径过程中进行删除和重组，最终到泛化后的新模式 C，编辑距离计算公式如下：H(i,j) = min{h(i,j)+H(i-1,j-1)，1+H(i-1,j)，1+H(i,j-1)}，其中，当 Xi 和 Yj 不同时，h(i,j)=1；当 Xi 和 Yj 相同时，h(i,j)=0；Xi 和 Yj 分别是模 X 和模版 Y 的第 i 个和第 j 个指标名。本文依据计算得出的编辑距离矩阵，提出的模式泛化过程如下所示：Step1: 记 i=1，j=1。Step2: 若 i=m 且 j=n，返回模式 C；否则转 Step3 。Step3: 记 min{h(i,j)+H(i-1,j-1)，1+H(i-1,j)，1+H(i,j-1)}对应下标 i'和 j'，记ΔH= H( i,j )-H( i',j')。
【相似文献】

相关博士学位论文前8条

1 王海平;基于限长空位和one-off约束的模式匹配求解模型研究[D];合肥工业大学;2015年

2 朱明;图模型在点模式匹配中的应用[D];安徽大学;2011年

3 谭志国;点模式匹配及应用研究[D];国防科学技术大学;2008年

4 丁国辉;数据库模式匹配算法的研究[D];东北大学;2012年

5 汪浩;带有通配符和长度约束的模式匹配问题求解及其应用研究[D];合肥工业大学;2016年

6 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年

7 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年

8 赵华;多模型下的近似字符串匹配算法研究[D];华中科技大学;2013年

相关硕士学位论文前10条

1 李智龙;手机游戏中不良文本信息屏蔽系统设计与实现[D];中国科学院大学(工程管理与信息技术学院);2015年

2 王旭芳;基于模式匹配和机器学习的协议识别技术研究[D];电子科技大学;2014年

3 贾晓菲;一般间隙及一次性条件的严格模式匹配[D];河北工业大学;2015年

4 杜淑芳;基于CUDA的字符序列模式匹配与频繁模式挖掘算法的研究[D];黑龙江大学;2015年

5 沈丛;无重叠条件下严格模式匹配的研究[D];河北工业大学;2015年

6 张迎春;三维点模式匹配算法研究与应用[D];吉林大学;2016年

7 杨鑫;IP网络流量净化系统研究与实现[D];电子科技大学;2016年

8 许坤;用于模式匹配的众包发包方法及优化策略[D];上海海洋大学;2016年

9 路瑶;一种基于正规树模式匹配的复杂事件检测方法[D];北京工业大学;2016年

10 张盈利;基于模式匹配的非结构化病理报告的信息抽取方法[D];东华大学;2017年

本文编号：2877001

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2877001.html

上一篇：基于风险调整的公立医院产科医疗质量评价与改进策略研究
下一篇：基于Web的临床思维训练系统的设计与实现

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|