当前位置:主页 > 医学论文 > 医卫管理论文 >

小样本临床数据的扩增协同分类辅助诊断方法研究与应用

发布时间:2020-08-09 00:13
【摘要】:临床数据中蕴含着许多有价值的信息,对于医生明确诊断,治疗疾病具有重要意义。但是现实生活中的临床数据由于保密性、不完整性,罕见疾病样本数量少,以及对于一些诊断困难疾病的临床数据类别标签获取困难等客观原因导致无法获得大量的临床样本。由这些原因造成的临床数据分类问题是一个典型的小样本数据分类问题。但是小样本临床数据采用传统分类算法训练的分类模型分类性能较低,不能满足现实生活的需要。为了进一步提高分类性能,为临床诊断提供一种有效的辅助诊断手段,本论文以临床数据为基础,针对不同疾病的小样本临床数据进行了研究,提出了数据扩增协同分类的小样本临床数据分类方法。本论文主要取得了如下成果:1.从临床数据样本量少出发,为了能够获得大量的样本,提出了基于高斯混合模型的数据扩增方法。通过对已有临床数据高斯混合分布的估计生成大量带有类别标签的虚拟数据即扩增数据,这样可以为接下来的分类任务提供大量的数据支持。2.本文在“数据扩增协同分类”思想下提出了两种分类算法:第一种是基于数据扩增的分类算法:对临床训练数据通过数据扩增生成大量扩增数据,然后将扩增数据和临床训练数据组成新的训练集训练传统的有监督分类模型。第二种是数据扩增协同半监督循环随机森林(DA-SSCRF)分类算法:通过对第一种算法的理论及实验分析发现数据扩增给出的类别标签存在错误会导致分类性能下降。因此为了给扩增数据标记可信度高的类别标签,本文引入了半监督学习思想,将临床训练数据作为有标签数据,对临床训练数据扩增得到的扩增数据作为无标签数据,最终提出了小样本分类背景下的半监督循环随机森林分类算法。通过构造半监督分类模型,使得扩增数据能够起到强化分类性能的作用。3.通过八种疾病临床数据集的验证,DA-SSCRF分类算法的分类准确率比不进行数据扩增的有监督分类算法和进行数据扩增的其它半监督分类算法的准确率提升了3%到11%。4.为了证明DA-SSCRF算法的实用性,将DA-SSCRF算法应用到了来自某三甲医院的脑膜炎疾病临床数据集上。本文通过基于变异系数的特征选择方法从原始的52维临床信息中选出了10维特征组成脑膜炎临床数据集,实验结果也表明DA-SSCRF算法在脑膜炎疾病类型的诊断准确率上提升3%,在临床医生诊断困难的结核性脑膜炎和隐球菌脑膜炎这两种类型的诊断率上分别提升了6%和10%。DA-SSCRF算法通过10维脑膜炎临床信息就能够实现对脑膜炎快速高效的诊断,对于脑膜炎疾病类型诊断具有重要意义。综上,本文针对小样本临床数据的分类问题提出了相应的解决办法,有效提高了疾病诊断的准确性,对于辅助医生进行疾病诊断具有重要意义。
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R-05;TP181
【图文】:

框架图,小样本,框架图,分类方法


据扩增与分类同时进行,数据扩增中考虑分类,分类中进行数据扩增。基于此思想提出了两种分类算法,图 3.1 给出了本文方法的框架图。图3.1 小样本临床数据分类方法框架图基于数据扩增的分类算法:首先为了解决临床训练数据样本数量少的问题,通过基于高斯混合模型的数据扩增(DA)方法生成带有类别标签的扩增数据,然后和训练数

流程图,流程图,数据,高斯混合模型


特征的离散化处理:针对临床数据中的离散特征,对扩增得到的连续值进行离散化处理。图 3.2 给出了数据扩增方法流程图。图3.2 数据扩增方法流程图(1)扩增数量及类别标签的获取为了获得带有类别标签的扩增数据,需要对临床训练数据中的每一类数据进行高斯混合模型的参数估计生成带有类别标签的扩增数据。我们知道高斯混合模型是由多个高斯模型线性组成的,通过高斯混合模型随机生成扩增数据的过程实际上就是随机生成服从多个高斯分布数据的过程。如果要生成一定数量的服从高斯混合分布的扩增数据,那么每一个高斯分布所占的样本数量成为一个关键问题。由于在高斯混合模型中每一个高斯分布的权重系数都不相同,这个权重系数代表数据出现在这个高斯分布的可能性,即概率值。因此我们的扩增原则是按照数据可能出现在某个高斯分布的概率生成相应的扩增数据。对于临床训练数据中的每个类别的临床数据,通过高斯混合分布生成一定数量的扩增数据的步骤如下所示:将临床训练数据D中的第i类数据记为( i)D ,标签为 i 。( i)D 通过高斯混合模型参数的估计得到最新参数集new ( new , new , new)1 i i i i k

流程图,分类算法,流程图,数据


3.2.3 算法具体流程因此,基于数据扩增的分类算法具体流程如图 3.3 所示:图3.3 基于数据扩增的分类算法流程图由图 3.3 可知,该方法主要分为五个阶段:第一阶段:待扩增临床数据集的划分第二阶段:通过高斯混合模型得到相关参数第三阶段:扩增数量及类别标签的获取第四阶段:离散特征的离散化第五阶段:分类模型的训练具体流程如下所示:输入:临床训练数据1 2 1 2 2{ , ,..., , , ,..., }m m m mD+ +x x x x x x ,其中,前 m 个特征是连续变量,最后m 个特征是离散变量。假设该数据集共有g 类,即有g 个类别标签。输出:带有类别标签的扩增数据集过程:第一阶段:待扩增临床数据集的划分Step1:对临床训练数据 D 按照类别 g 进行划分。将其划分为 g 个子数据集,每一个子数据集称为单类临床数据集,作为下一步的输入。因此共有g 个单类临床数据集,其中第i 类临床数据集

【相似文献】

相关期刊论文 前10条

1 景慎旗;刘云;缪妹妹;张小亮;;基于临床数据中心的医院知识服务系统构建[J];医学信息学杂志;2017年02期

2 林琳;白波;王韬;;临床数据中心的构建与应用[J];中国数字医学;2016年08期

3 吴晓芬;王磊;王培军;;基于电子病历的临床数据中心构建[J];医学信息学杂志;2016年10期

4 徐晓辉;;医院临床数据中心构建探讨[J];中国数字医学;2015年02期

5 尹岭;陈广飞;蒋艳峰;成福春;杜鹏;应俊;何史林;管淑丽;彭芳;刘胜男;周丹;;临床数据资源整合与利用[J];中国数字医学;2010年11期

6 左崇年;;临床数据造假入刑并非小题大做[J];江淮法治;2017年08期

7 罗晶;李劲松;黄丽丽;周天舒;翁盛鑫;田宇;;临床数据中心建设助力转化医学研究[J];转化医学杂志;2013年02期

8 孟繁荣;刘永兰;王军成;;医院临床数据中心建设问题分析[J];解放军医药杂志;2012年12期

9 ;等待临床数据导致“不应有的死亡”[J];科学之友;2006年11期

10 乐颖;;临床数据中心的构建与应用[J];中国卫生产业;2018年05期

相关会议论文 前10条

1 张华;张笑波;赵宏杰;林宇春;;证的量化与临床数据的定性的方法学理论基础[A];中国中西医结合学会诊断专业委员会2009’年会论文集[C];2009年

2 张华;张笑波;赵宏杰;林宇春;;证的量化与临床数据的定性的方法学理论基础[A];2009全国时间生物医学学术会议论文集[C];2009年

3 张华;张笑波;赵宏杰;;证的量化与临床数据的定性的方法学理论基础[A];中华中医药学会第二届中医方证基础研究与临床应用学术研讨会论文集[C];2008年

4 王禹毅;韩梅;陈妮妮;李青;刘建平;;从如何获得高质量临床数据探讨临床试验的数据管理[A];第七届中医/中西医结合循证医学方法研讨会会议材料[C];2013年

5 李岭;季星来;李妍;李春义;;生物信息学研究中临床数据解读方面可能存在的若干问题的探讨[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年

6 潘宏铭;;从临床试验到临床实践—埃克替尼Ⅳ期临床数据分析[A];2013年第六届国家级分子靶点药物治疗新进展学习班暨浙江省肿瘤化疗学术年会论文集[C];2013年

7 韩钊;臧秋玲;叶祖森;王苹莉;樊恺;曹云刚;耿媛媛;张征;;卒中临床数据登记系统的研究开发[A];医学科研管理前沿与实务研讨班论文集[C];2009年

8 陈松鹤;;基于CDR的医院卫生统计数据建设与应用[A];第二十八届中国医院协会病案专业委员会学术会议论文集[C];2019年

9 陈松鹤;陈志文;;基于CDR的医院卫生统计数据建设与应用[A];第二十七届中国医院协会病案管理专业委员会学术会议论文集[C];2018年

10 韩钊;臧秋玲;叶祖森;项崇雷;陈小丽;邵蓓;郑荣远;;《卒中临床数据登记系统V1.0》软件的开发与使用[A];2008年浙江省神经病学学术年会论文汇编[C];2008年

相关重要报纸文章 前10条

1 本报记者 龙九尊;上市申请近4年未获批 VTI披露ELAD临床数据[N];科学时报;2011年

2 记者 姚倩;瑞德西韦临床数据近期将公布[N];北京商报;2020年

3 晏扬;从“罚酒三杯”到死刑,药物临床数据还敢造假?[N];工人日报;2017年

4 伊一芳;临床数据造假 应该付出代价[N];人民法院报;2017年

5 左崇年;“临床数据造假入刑”并非小题大做[N];中国商报;2017年

6 刘效仁;临床数据造假入刑为生命安全铸剑[N];证券时报;2017年

7 广西 医生 罗志华;临床数据造假入刑是合理纠偏[N];长江日报;2017年

8 西南政法大学政治与公共管理学院副教授 和静钧;临床造假入刑才是真正“零容忍”[N];深圳特区报;2017年

9 廖海金 江西省新余市渝水区政协委员;临床数据造假,必须施以最严格的刑罚[N];人民政协报;2017年

10 本报记者 张蓝飞;临床数据成推动产业创新抓手[N];医药经济报;2017年

相关博士学位论文 前2条

1 周天舒;国际临床数据交换关键技术研究及系统实现[D];浙江大学;2013年

2 冯奇;POMDP近似解法研究及在中医诊疗方案优化中的应用[D];北京交通大学;2011年

相关硕士学位论文 前10条

1 郭峻凌;基于图卷积网络的癌症生存期预测方法[D];哈尔滨工业大学;2019年

2 康越;小样本临床数据的扩增协同分类辅助诊断方法研究与应用[D];西安电子科技大学;2019年

3 许帆;基于临床数据的中医处方推荐方法研究[D];北京交通大学;2019年

4 李雪梅;食管鳞癌临床数据平台构建与处理分析[D];济南大学;2019年

5 范旦;基于大数据分析法的腰痛古代文献数据与现代临床数据证药对照研究[D];成都中医药大学;2018年

6 李雅娜;脑卒中临床数据管理与疾病辅助预测系统[D];昆明理工大学;2018年

7 潘主强;基于中医临床数据的疾病分类关键方法研究[D];西南石油大学;2017年

8 王宏宇;基于大数据研究模式对重症烧伤患者临床数据的挖掘与分析[D];第三军医大学;2015年

9 孙亚林;临床数据管理系统研究及其在数据规范化管理中的应用[D];第二军医大学;2005年

10 刘一帆;基于电子病历的科室临床数据中心的实现[D];中山大学;2014年



本文编号:2786298

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2786298.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6f3d6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com