基于模式匹配的非结构化病理报告的信息抽取方法
【学位单位】:东华大学
【学位级别】:硕士
【学位年份】:2017
【中图分类】:R197.323;TP391.1
【部分图文】:
图 2-2 基于逆向最短编辑距离的模式泛化示意图述泛化方法得出的泛化结果,可以得出结论,即最终得到的泛化模用性较强的要求。该泛化方法的优点就是在编辑距离的基础上考虑果更理想。结点阐述了在非结构化病理文本数据的信息抽取过程中所涉及到的介绍了中文分词工具;其次介绍了信息抽取的概念及方法;然后介;最后介绍了逆向最短编辑距离泛化方法并展示了其泛化结果。
基于模式匹配的非结构化病理报告的信息抽取方法首先,元数据文件的获取。现存的数据文件格式多种多样,如果对所有格式的文档都进行抽取元数据的话,那么将会花费很大代价,得不偿失,所以我们主要针对文本文件、word 文件、excel 文件三种格式的文件进行信息抽取。因为不同格式类型的文件的元数据获取的方法不尽相同。所以,在获取元数据之前,我们要把各种格式的文件转化为统一的XML 文件,三种不同格式的文件转化为 XML 文件的方法如图 3-1 所示。
图 4-1 模式泛化其中,Xk 和 Yk 分别是模式 X 和模式 Y 的标本名,Xi 和 Yi 分别是模式 X 和模式 Y指标名。通过上述泛化流程可以发现,当标本名相同时,只需要把标本名相同的模式合并就可得到泛化后的新模式;但当标本名不同时,需要根据待泛化模式 X 和 Y 的编辑距离矩 Hmn构造正向最短编辑距离路径 L,在构造最短编辑路径过程中进行删除和重组,最终到泛化后的新模式 C,编辑距离计算公式如下:H(i,j) = min{h(i,j)+H(i-1,j-1),1+H(i-1,j),1+H(i,j-1)},其中,当 Xi 和 Yj 不同时,h(i,j)=1;当 Xi 和 Yj 相同时,h(i,j)=0;Xi 和 Yj 分别是模 X 和模版 Y 的第 i 个和第 j 个指标名。本文依据计算得出的编辑距离矩阵,提出的模式泛化过程如下所示:Step1: 记 i=1,j=1。Step2: 若 i=m 且 j=n,返回模式 C;否则转 Step3 。Step3: 记 min{h(i,j)+H(i-1,j-1),1+H(i-1,j),1+H(i,j-1)}对应下标 i'和 j',记ΔH= H( i,j )-H( i',j')。
【相似文献】
相关博士学位论文 前8条
1 王海平;基于限长空位和one-off约束的模式匹配求解模型研究[D];合肥工业大学;2015年
2 朱明;图模型在点模式匹配中的应用[D];安徽大学;2011年
3 谭志国;点模式匹配及应用研究[D];国防科学技术大学;2008年
4 丁国辉;数据库模式匹配算法的研究[D];东北大学;2012年
5 汪浩;带有通配符和长度约束的模式匹配问题求解及其应用研究[D];合肥工业大学;2016年
6 庞引明;基于结构化联接的XML查询模式匹配关键技术研究[D];复旦大学;2004年
7 宁博;XML查询模式匹配及文档过滤技术研究[D];东北大学;2009年
8 赵华;多模型下的近似字符串匹配算法研究[D];华中科技大学;2013年
相关硕士学位论文 前10条
1 李智龙;手机游戏中不良文本信息屏蔽系统设计与实现[D];中国科学院大学(工程管理与信息技术学院);2015年
2 王旭芳;基于模式匹配和机器学习的协议识别技术研究[D];电子科技大学;2014年
3 贾晓菲;一般间隙及一次性条件的严格模式匹配[D];河北工业大学;2015年
4 杜淑芳;基于CUDA的字符序列模式匹配与频繁模式挖掘算法的研究[D];黑龙江大学;2015年
5 沈丛;无重叠条件下严格模式匹配的研究[D];河北工业大学;2015年
6 张迎春;三维点模式匹配算法研究与应用[D];吉林大学;2016年
7 杨鑫;IP网络流量净化系统研究与实现[D];电子科技大学;2016年
8 许坤;用于模式匹配的众包发包方法及优化策略[D];上海海洋大学;2016年
9 路瑶;一种基于正规树模式匹配的复杂事件检测方法[D];北京工业大学;2016年
10 张盈利;基于模式匹配的非结构化病理报告的信息抽取方法[D];东华大学;2017年
本文编号:2877001
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2877001.html