基于中医电子病历的疾病诊断方法研究
发布时间:2020-10-11 20:25
疾病诊断是临床诊疗的首要环节,利用电子病历数据进行疾病的自动诊断分析是近年来医学信息学与医学人工智能研究的热点。随着中医院电子病历系统的广泛应用和推广,利用中医电子病历进行疾病诊断研究具备了可行性,鉴于中医电子病历(住院病历)以中西医结合的诊疗过程为主要内容以及中西医临床诊断特征的差异性,基于西医电子病历的相关研究能否直接推延到中医临床环境,是一个有待探索的问题。本文通过结合一定规模的中医电子病历和中医领域知识开展疾病诊断方法研究,构建了多种疾病诊断的标准数据集,并重点在特征处理和表示学习方面进行探索,结合多种分类学习模型,提出了几种具有一定实用价值的疾病诊断新方法,主要研究结果包括如下两个方面:首先,本文按照诊断的纳入标准收集并整理了一批中医电子病历数据,构建了多种专病的标准数据集,包括慢性病毒性乙型肝炎数据集(1366个诊次),二型糖尿病数据集(856个诊次)和肝硬化数据集(2304个诊次),以上数据集包含症状、舌脉象、中药、既往史和实验室检查信息等多种临床特征;在分析不同种类临床特征重要性的基础上,提出了基于权重的特征筛选方法,结合多种分类模型(如逻辑回归、SVM、集成学习和Stacking模型),在构建的标准数据集上进行了比较实验分析。研究结果表明,基于特征筛选的疾病诊断方法,能达到基于专家人工筛选特征的疾病诊断方法的效果,相比无特征筛选的基线方法诊断性能显著提升,同时,在使用Stacking模型时取得了最好性能(AUC值在三个数据集上相较于基线方法分别为 0.919 vs 0.676,0.922 vs 0.68,0.979 vs 0.911)。其次,本文引入基于网络嵌入的深度特征表示方法,结合中药靶点等网络数据,进行特征表示学习,提出了基于网络嵌入的疾病诊断方法。该方法能够根据不同特征之间的相似性来对病人的特征进行扩展和补充,从而提升诊断性能。结合Stacking模型,该方法在慢性病毒性乙型肝炎、二型糖尿病和肝硬化数据集上的AUC 值分别达到了 0.965、0.966 和 0.988。以上研究表明,结合Stacking模型的基于网络嵌入的疾病诊断方法存在较大优势,已经具备了针对不同疾病进行预测的实用价值,有望成为一种有潜力的基于中医电子病历的疾病诊断方法。
【学位单位】:北京交通大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP18;R197.4
【部分图文】:
疾病诊断方法的相关研宄??出发,进行反复的学习,得到一系列弱分类器(基本分类器),然后组合这些弱分??类器构成一个强分类器。集成学习的流程如图2-1所示:??g鮮聊I、J??(弱学习器2?二琴\、^、??'''''强学习器)??弱学习器n??图2-1集成学习??Figure?2-1?Ensemble?Learning??可以发现在集成学习中有两个主要的问题需要解决,第一是如何得到若干个??个体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习??器。按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之??间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是Boosting??系列算法,例如Adaboost和GBDT等;第二个是个体学习器之间不存在强依赖关??系,一系列个体学习器可以并行生成,代表算法是Bagging系列算法。??Boosting是一种串行的工作机制,即个体学习器的训练存在依赖关系,必须一??步一步序列化进行。其基本思想是:增加前一个基学习器在训练训练过程中预测错??误样本的权重
规则如下:??1)对每棵决策树的训练集,随机森林使用随机采样bootstrap的方法来选择采??样集作为决策树的训练集,极端随机树不使用随机采样,而是采用原始的训练集。??2)在选定了划分特征后,随机森林会基于信息增益、基尼系数或者均方差之类??的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是ExtraTree??会采用激进的方法,它会随机的选择一个特征值来划分决策树。??从第二点可以看出,由于随机选择了特征值的划分点位,而不是最优点位,这??样会导致生成的决策树的规模一般会大于随机森林的规模。即模型的方差相对于??随机森林进一步减少,在某些时候,极端随机树的泛化能力比随机森林更好。??2.3.3模型融合??模型融合(Stacking)就是用初始训练数据学习出若千个基学习器后,将这几??个学习器的预测结果作为新的训练集,来学习一个新的学习器的方法。Stacking的??具体流程如图2-2所示:??Model?1?Model?1?Model?1?Model?1?Model?1?New?Feature?Model2??
在本实验中,我们将针对慢性病毒性乙型肝炎、二型糖尿病和肝硬化的数据??集,得到基于WBFS方法所筛选的特征和基于专家手工筛选后的特征,选择相同??的分类预测模型,比较两种方法的优劣性。实验结果见图3-3:??27??
【参考文献】
本文编号:2837075
【学位单位】:北京交通大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP18;R197.4
【部分图文】:
疾病诊断方法的相关研宄??出发,进行反复的学习,得到一系列弱分类器(基本分类器),然后组合这些弱分??类器构成一个强分类器。集成学习的流程如图2-1所示:??g鮮聊I、J??(弱学习器2?二琴\、^、??'''''强学习器)??弱学习器n??图2-1集成学习??Figure?2-1?Ensemble?Learning??可以发现在集成学习中有两个主要的问题需要解决,第一是如何得到若干个??个体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习??器。按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之??间存在强依赖关系,一系列个体学习器基本都需要串行生成,代表算法是Boosting??系列算法,例如Adaboost和GBDT等;第二个是个体学习器之间不存在强依赖关??系,一系列个体学习器可以并行生成,代表算法是Bagging系列算法。??Boosting是一种串行的工作机制,即个体学习器的训练存在依赖关系,必须一??步一步序列化进行。其基本思想是:增加前一个基学习器在训练训练过程中预测错??误样本的权重
规则如下:??1)对每棵决策树的训练集,随机森林使用随机采样bootstrap的方法来选择采??样集作为决策树的训练集,极端随机树不使用随机采样,而是采用原始的训练集。??2)在选定了划分特征后,随机森林会基于信息增益、基尼系数或者均方差之类??的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是ExtraTree??会采用激进的方法,它会随机的选择一个特征值来划分决策树。??从第二点可以看出,由于随机选择了特征值的划分点位,而不是最优点位,这??样会导致生成的决策树的规模一般会大于随机森林的规模。即模型的方差相对于??随机森林进一步减少,在某些时候,极端随机树的泛化能力比随机森林更好。??2.3.3模型融合??模型融合(Stacking)就是用初始训练数据学习出若千个基学习器后,将这几??个学习器的预测结果作为新的训练集,来学习一个新的学习器的方法。Stacking的??具体流程如图2-2所示:??Model?1?Model?1?Model?1?Model?1?Model?1?New?Feature?Model2??
在本实验中,我们将针对慢性病毒性乙型肝炎、二型糖尿病和肝硬化的数据??集,得到基于WBFS方法所筛选的特征和基于专家手工筛选后的特征,选择相同??的分类预测模型,比较两种方法的优劣性。实验结果见图3-3:??27??
【参考文献】
相关期刊论文 前2条
1 孟洪宇;孟庆刚;;基于条件随机场的中医术语抽取方法及其应用探析[J];中华中医药学刊;2014年10期
2 李梢;张博;;中药网络药理学:理论、方法与应用(英文)[J];中国天然药物;2013年02期
相关博士学位论文 前2条
1 胡佳卉;基于信息处理的中医药治疗2型糖尿病方药数据挖掘与分析研究[D];北京中医药大学;2017年
2 宋亚南;基于数据挖掘的新安医家妇科常见病辨治特色与用药规律研究[D];北京中医药大学;2017年
相关硕士学位论文 前5条
1 王萍;基于电子病历数据的疾病预测模型构建研究[D];吉林大学;2017年
2 李昆;基于电子病历的深度神经网络预测模型研究与应用[D];郑州大学;2017年
3 李奇航;面向复杂因素的心血管疾病预测研究[D];郑州大学;2017年
4 王凤利;基于BP神经网络和DS证据理论的疾病预测模型研究[D];太原理工大学;2016年
5 张宸鸣;核矩阵近似的研究及其在支持向量机中的应用[D];北京交通大学;2015年
本文编号:2837075
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2837075.html