当前位置:主页 > 医学论文 > 儿科论文 >

基于集成学习与不平衡多标签数据集的儿科常见病预测模型构建

发布时间:2020-05-26 05:54
【摘要】:对于疾病的预测常常需要收集一定量的临床病历作为数据集,将病历中的症状描述作为实例特征,初步诊断作为疾病标签,并采用数据挖掘与机器学习算法来构造疾病的预测模型。然而,医学中的样本数据经常会存在不平衡的现象,由此产生模型预测效果不佳的问题。鉴于医学数据集具有不平衡和多标签的特点,本文将利用集成学习算法构建一个儿科常见病的预测模型。文中对于儿科常见病的预测模型的构建,采取过采样与AdaBoost相结合并利用最大互信息生成树的算法。具体表述为:首先采用BR策略对儿科常见病的实验数据集拆分成每个标签所对应的二分类数据集;其次针对每个二分类数据集,AdaBoost在其训练与迭代过程中不断对少数类的可靠样本在指定阈值内进行一定量的复制,因此构成了所有单个疾病标签的预测模型,最后利用所有单个疾病标签预测模型的结果,并依据标签之间的最大互信息生成树进行预测。预测时需要遍历生成树,根据该结点的预测概率,父亲结点的预测概率以及其与该结点之间互信息的乘积,选取其中的最大值并更新为该结点的预测概率,设定适当阈值,把满足条件的标签添加到标签的结果集中。实验方面,两类单个疾病标签的二分类数据集与三个不平衡的二分类公共数据集运用不同的抽样技术与单个疾病标签的预测模型进行了对比,结果表明该模型的精确率、召回率和F1值均有不同程度的提升;而在文中的儿科常见病实验数据集上,将儿科常见病的预测模型与主流的多标签算法ML-KNN等进行了对比,实验证明在三类评价指标上,该模型优于其他算法的效果,因此该算法在不平衡多标签的数据集上所构造的儿科常见病的预测模型是相当有效的。
【图文】:

分类图,图片展示,示例,分类图


单标签与多标签图片展示(a)二类分类图片示例(b)多标签图片示例

示意图,示意图,样本点,属性


图 2.2 SMOTE 算法的几何示意图综上所述,SMOTE 方法是采取 邻近算法来查找原始少数类中合适的样本点成样本点提供了近邻样本点。 邻近的自身属性是一种以度量距离为规则,并中两两之间的间距。若为数值属性,一般采用欧式距离;若为非数值属性,,则数值度量规则去判定。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:R72;TP181

【参考文献】

相关期刊论文 前2条

1 郭乔进;李立斌;李宁;;一种用于不平衡数据分类的改进AdaBoost算法[J];计算机工程与应用;2008年21期

2 刘胥影;吴建鑫;周志华;;一种基于级联模型的类别不平衡数据分类方法[J];南京大学学报(自然科学版);2006年02期



本文编号:2681382

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/eklw/2681382.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9146c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com