多组学缺失数据联合填补方法评价及其应用
发布时间:2017-12-16 03:30
本文关键词:多组学缺失数据联合填补方法评价及其应用
更多相关文章: 多组学数据 块缺失 统计学填补 机器学习填补 效果评价
【摘要】:2003年,人类全基因组计划(human genoome project,HGP)宣告结束,由此,与人类疾病相关的遗传研究进入后GWAS时代。多组学数据(基因组、转录组、表观遗传组等)一般来自于不同的平台,这使得多组学数据挖掘新生了很多困难。如"块缺失"(bulked missing data)的情况在多组学数据中经常出现。保证在数据结构(方差-协方差结构)尽量不变或变化幅度相对较小时,提高缺失数据填补的精确度,对于后期数据挖掘有重要的意义。本研究致力于多组学(转录组、表观遗传组)中"块缺失"数据填补方法的评价。并将优势方法应用于WNT信号通路相关变量,对缺失数据进行填补,对早期非小细胞肺癌(non-small cell lung cancer,NSCLC)患者的预后状况进行建模预测,并比较填补前后模型的预测效果。下载癌症基因组图谱(the cancer genome atlas,TCGA)数据库中非小细胞肺癌数据(包括:甲基化数据、基因表达数据),通过构造不同缺失比例的缺失数据集(缺失比例分别为5%、20%、35%、50%和65%),评价填补方法在数据集中的填补效果(WNT通路数据集和随机变量数据集)。采用统计学填补方法[均值法,马尔科夫蒙特卡洛法(Markov Chain Monte Carlo,MCMC)]和机器学习填补法[邻近法(k-Nearest Neighbor,KNN),随机森林法(Random Forest,RF),多层感知机法(Multi-layer perceptron,MLP)]对缺失数据进行填补,填补后的数据集与原数据集进行综合比较。评价指标:①估计偏差,②矩阵-2-范数。再根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。选择WNT通路数据集,对MLP方法进行填补。填补前后的数据集,分别用(I)SIS降维方法进行降维,经过降维压缩后,保留下来的变量纳入Cox比例回归模型,并对第5年的预后情况进行风险预测。Bootstrap进行1000次,计算AUC的可信区间,比较填补前后预测模型中AUC的大小。MLP和KNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。在实际数据分析中,MLP方法填补后的数据集,经过降维后建立的Cox模型预测效果优于未进行填补的数据集,其中AUCimp-0.7431[0.7215,0.7647],AUCunimp=0.6945[0.6729,0.7161]。综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补,且具有实际应用价值。
【学位授予单位】:南京医科大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R195.1
【参考文献】
中国期刊全文数据库 前1条
1 茅群霞,李晓松;多重填补法Markov Chain Monte Carlo模型在有缺失值的妇幼卫生纵向数据中的应用[J];四川大学学报(医学版);2005年03期
,本文编号:1294554
本文链接:https://www.wllwen.com/shoufeilunwen/mpalunwen/1294554.html
最近更新
教材专著