基于中文电子病历的冠心病危险因素抽取方法研究
发布时间:2020-12-12 05:15
冠心病是危害人类健康的重要疾病,患者的电子病历中蕴含着大量如高血压、糖尿病等危险因素的描述信息,准确抽取这些描述信息对临床研究和辅助临床诊断具有重要意义。目前,基于英文电子病历的冠心病危险因素抽取已经开展了大量工作,而基于中文电子病历的抽取研究则相对较少,因而研究中文电子病历的冠心病危险因素抽取十分必要。本文综合运用自然语言处理的多种技术,在构建语料库的基础上,研究冠心病危险因素的抽取方法,为临床实验提供参考。本文的主要贡献有:(1)制定了适用于中文电子病历的冠心病危险因素语料库的标注指南,完成了语料库的构建。在对新疆某三甲医院提供的500名冠心病患者的出院小结预处理的基础上,参照2014年美国临床信息学研究中心I2B2发布的冠心病危险因素标注语料库,制定了标注指南并开发了危险因素语料库标注工具;由两名临床医生完成了预标注和正式标注工作。经过三轮预标注和一轮正式标注后,标注一致性IAA达到了0.95,结果表明标注具备可靠性。(2)提出了一种混合式冠心病危险因素抽取方法。针对所构建语料库中危险因素标识数据存在不平衡问题,分别采用基于规则和机器学习的方法实现抽取。对标识数据分布较多的危险因...
【文章来源】:新疆大学新疆维吾尔自治区 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
电子病历的主要来源
当前位置标签的预测结果不仅与当前的输入特征有关,还与当前位置之标签的预测结果有关,标签的预测结果之间是有强相互依赖关系的。例如 BIO 标签进行医学疾病名抽取时,O 表示非疾病名部分,正确的标签序列签 O 只会出现在标签 B 的前面和后面或标签 I 的后面,而不会出现标签 I 的接标签 O 的情况。常见的机器学习模型有 HMM、ME、CRF 等。在信息抽取中,条件随机场一直被认为是最好的模型。条件随机场的基础来自马尔科夫模型。马尔科夫模型的本质是随机过程,模型的假设是当前状和前 n 个状态有关。条件随机场另一重要的部分是特征模板,特征模板一般过归纳文本中的一些语言学现象定义的二值特征函数。对于句子中的给定位说,提取特征的位置是一个窗口,即上下文位置。CRF 的抽取原理是对一置进行预测时,可以利用此前已经标注的标签信息,最后通过动态规划得到序列。在特征提取时,满足条件的特征取值标记为 1,不满足条件的特征取记为 0;最后通过训练得到标注模型。条件随机场的图形结构如图 2-2 所示
理论基础、适用于多项自然语言处理任务。缺点是模型的拓扑结构,且模型训练需要大量的训练数据作为支持。深度学习算机计算力的大幅提升,基于深度学习的神经网络模型环神经网络[35](Recurrent Neural Network, RNN)在文本循环神经网络通过反向传播和记忆的机制,能够处理任意循环神经网络的另一个优点是克服了传统机器学习方法需,能够自主抽取文本中句子的句法、语义等特征。经网络是一种时间递归神经网络,由 Hochreiter 和 Sc提出。假设每次输入为ix ,输出为iy ,ih 为隐藏状态,则上一个隐藏状态i-1h 和本次的输入ix 有关,模型主要应用自然语言任务。循环神经网络结构如图 2-3 所示。
【参考文献】:
期刊论文
[1]基于最大匹配算法的似然导向中文分词方法[J]. 杨贵军,徐雪,凤丽洲,徐玉慧. 统计与信息论坛. 2019(03)
[2]融合手工特征与双向LSTM结构的中文分词方法研究[J]. 徐伟,车万翔,刘挺. 智能计算机与应用. 2019(01)
[3]基于双向LSTM神经网络电子病历命名实体的识别模型[J]. 杨红梅,李琳,杨日东,周毅. 中国组织工程研究. 2018(20)
[4]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[5]基于两位一体的中文电子病历命名实体识别[J]. 郁小玲,张铁山,吴彤,方明哲,黄建一,胡长军. 中国卫生信息管理杂志. 2017(04)
[6]《中国心血管病报告2016》概要[J]. 陈伟伟,高润霖,刘力生,朱曼璐,王文,王拥军,吴兆苏,李惠君,顾东风,杨跃进,郑哲,蒋立新,胡盛寿. 中国循环杂志. 2017(06)
[7]基于条件随机域的临床文本去识别研究[J]. 都丽婷,夏晨曦,赵冬,宋阳,罗维,冯德军,洪旭,马敬东. 中国卫生信息管理杂志. 2017(02)
[8]冠心病危险因素研究进展[J]. 孙文栋,孔令阁. 中西医结合心血管病电子杂志. 2017(10)
[9]隐马尔可夫模型在中文文本分词中应用研究[J]. 王庆福. 无线互联科技. 2016(13)
[10]基于多标签CRF的疾病名称抽取[J]. 王鹏远,姬东鸿. 计算机应用研究. 2017(01)
本文编号:2911918
【文章来源】:新疆大学新疆维吾尔自治区 211工程院校
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
电子病历的主要来源
当前位置标签的预测结果不仅与当前的输入特征有关,还与当前位置之标签的预测结果有关,标签的预测结果之间是有强相互依赖关系的。例如 BIO 标签进行医学疾病名抽取时,O 表示非疾病名部分,正确的标签序列签 O 只会出现在标签 B 的前面和后面或标签 I 的后面,而不会出现标签 I 的接标签 O 的情况。常见的机器学习模型有 HMM、ME、CRF 等。在信息抽取中,条件随机场一直被认为是最好的模型。条件随机场的基础来自马尔科夫模型。马尔科夫模型的本质是随机过程,模型的假设是当前状和前 n 个状态有关。条件随机场另一重要的部分是特征模板,特征模板一般过归纳文本中的一些语言学现象定义的二值特征函数。对于句子中的给定位说,提取特征的位置是一个窗口,即上下文位置。CRF 的抽取原理是对一置进行预测时,可以利用此前已经标注的标签信息,最后通过动态规划得到序列。在特征提取时,满足条件的特征取值标记为 1,不满足条件的特征取记为 0;最后通过训练得到标注模型。条件随机场的图形结构如图 2-2 所示
理论基础、适用于多项自然语言处理任务。缺点是模型的拓扑结构,且模型训练需要大量的训练数据作为支持。深度学习算机计算力的大幅提升,基于深度学习的神经网络模型环神经网络[35](Recurrent Neural Network, RNN)在文本循环神经网络通过反向传播和记忆的机制,能够处理任意循环神经网络的另一个优点是克服了传统机器学习方法需,能够自主抽取文本中句子的句法、语义等特征。经网络是一种时间递归神经网络,由 Hochreiter 和 Sc提出。假设每次输入为ix ,输出为iy ,ih 为隐藏状态,则上一个隐藏状态i-1h 和本次的输入ix 有关,模型主要应用自然语言任务。循环神经网络结构如图 2-3 所示。
【参考文献】:
期刊论文
[1]基于最大匹配算法的似然导向中文分词方法[J]. 杨贵军,徐雪,凤丽洲,徐玉慧. 统计与信息论坛. 2019(03)
[2]融合手工特征与双向LSTM结构的中文分词方法研究[J]. 徐伟,车万翔,刘挺. 智能计算机与应用. 2019(01)
[3]基于双向LSTM神经网络电子病历命名实体的识别模型[J]. 杨红梅,李琳,杨日东,周毅. 中国组织工程研究. 2018(20)
[4]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦颖,曾颖菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[5]基于两位一体的中文电子病历命名实体识别[J]. 郁小玲,张铁山,吴彤,方明哲,黄建一,胡长军. 中国卫生信息管理杂志. 2017(04)
[6]《中国心血管病报告2016》概要[J]. 陈伟伟,高润霖,刘力生,朱曼璐,王文,王拥军,吴兆苏,李惠君,顾东风,杨跃进,郑哲,蒋立新,胡盛寿. 中国循环杂志. 2017(06)
[7]基于条件随机域的临床文本去识别研究[J]. 都丽婷,夏晨曦,赵冬,宋阳,罗维,冯德军,洪旭,马敬东. 中国卫生信息管理杂志. 2017(02)
[8]冠心病危险因素研究进展[J]. 孙文栋,孔令阁. 中西医结合心血管病电子杂志. 2017(10)
[9]隐马尔可夫模型在中文文本分词中应用研究[J]. 王庆福. 无线互联科技. 2016(13)
[10]基于多标签CRF的疾病名称抽取[J]. 王鹏远,姬东鸿. 计算机应用研究. 2017(01)
本文编号:2911918
本文链接:https://www.wllwen.com/yixuelunwen/xxg/2911918.html
最近更新
教材专著