当前位置:主页 > 医学论文 > 肿瘤论文 >

多组学联合缺失数据填补方法的评价

发布时间:2018-05-14 11:53

  本文选题:多组学数据 + 块缺失 ; 参考:《中国卫生统计》2017年04期


【摘要】:目的本研究旨在评价不同平台间"块缺失"数据的填补方法。如何在保证方差-协方差结构相对稳定的前提下提高多组学数据填补的精确度,对于后期数据挖掘有重要的意义。方法利用癌症基因组图谱(TCGA)数据库的肺癌数据(甲基化数据、基因表达数据),构建不同缺失比例的数据集(缺失比例分别为5%、20%、35%、50%和65%)。采用统计学填补方法均值法,马尔科夫蒙特卡洛法(MCMC)和机器学习填补法[邻近法(kNN),随机森林法(RF),多层感知机法(MLP)]对缺失数据进行填补,填补后数据集与原数据集进行比较。评价指标包括估计偏差和矩阵-2-范数。根据评价指标和填补时间,比较出填补效果最优、填补时间较短的方法。结果 MLP和kNN算法在各种缺失比例下均比其他填补方法有更优的效果,填补时间也相对较短。均值法的时间最短,在数据集缺失比例较小时(≤5%),填补效果与其他填补方法相当,但在高比例缺失情况下表现较差。在数据集高比例缺失情况下,RF和MCMC的填补效果优于均值法,但填补时间过长,不适用于实际工作。结论综合比较,机器学习填补方法中的MLP和kNN两法适合于甲基化数据和表达数据的填补。
[Abstract]:The purpose of this study is to evaluate the filling method of "block missing" data between different platforms. How to improve the accuracy of multi group data filling under the premise of ensuring the relative stability of variance covariance structure is of great significance for later data mining. Methods using the cancer data (TCGA) database of lung cancer data (methylation data, Gene expression data), set up data sets with different loss ratios (5%, 20%, 35%, 50% and 65%). Using statistical filling method mean method, Markoff Monte C Lofa (MCMC) and machine learning filling method (kNN), random forest method (RF), multi-layer perceptron (MLP)) fill the missing data and fill the post data. The set is compared with the original data set. The evaluation index includes the estimation deviation and the matrix -2- norm. According to the evaluation index and the filling time, it compares the method of filling the best effect and filling the short time. Results MLP and kNN algorithm have better effect than other filling methods under various missing proportions. The filling time is relatively short. Mean method is also relatively short. The time is the shortest, the proportion of missing data sets is small (less than 5%). The filling effect is equivalent to the other filling methods, but the performance is poor in the case of high proportion missing. In the case of high proportion missing data set, the filling effect of RF and MCMC is better than the mean method, but the filling time is too long and does not apply to the actual work. Conclusion comprehensive comparison, machine learning fill The two methods of MLP and kNN are suitable for the filling of methylation data and expression data.

【作者单位】: 南京医科大学公共卫生学院生物统计学系;
【基金】:国家自然科学基金重点项目(81530088) 面上项目(81473070,81373102) 国家自然科学青年基金(81402764) 江苏省高校优势学科资助
【分类号】:O212.1;R73-3

【相似文献】

相关期刊论文 前10条

1 金勇进;调查中的数据缺失及处理(Ⅰ)——缺失数据及其影响[J];数理统计与管理;2001年01期

2 金勇进;缺失数据的加权调整(系列之Ⅳ)[J];数理统计与管理;2001年05期

3 赵慧秀;马文卿;;带有缺失数据的估计方程[J];曲阜师范大学学报(自然科学版);2009年03期

4 庞新生;;缺失数据处理方法的比较[J];统计与决策;2010年24期

5 杨金英;崔朝杰;;图模型方法用于二值变量相关性分析中缺失数据的估计[J];中国卫生统计;2012年05期

6 帅平;李晓松;周晓华;刘玉萍;;缺失数据统计处理方法的研究进展[J];中国卫生统计;2013年01期

7 金勇进;缺失数据的偏差校正(系列三)[J];数理统计与管理;2001年04期

8 毕华,李济洪;带有缺失数据的聚类分析方法[J];华北工学院学报;2003年05期

9 李开灿;;有缺失数据的META-MARKOV模型的局部计算[J];应用数学学报;2007年03期

10 周伟萍;张德然;杨兴琼;;具有部分缺失数据时两个几何总体的估计[J];长春大学学报;2008年02期

相关会议论文 前2条

1 耿直;葛丹丹;;纵向研究非随机缺失数据分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年

2 张香云;;基于EM算法缺失数据下混合模型的参数估计[A];第十三届中国管理科学学术年会论文集[C];2011年

相关博士学位论文 前9条

1 彭清艳;广义函数型回归模型及缺失数据模型[D];云南大学;2016年

2 骆汝九;多指标综合评价的非参数方法和缺失数据的聚类方法研究[D];扬州大学;2011年

3 祝丽萍;几种缺失数据和高维数据模型的统计分析[D];山东大学;2012年

4 贾博婷;缺失数据下一类整值时间序列的统计推断[D];吉林大学;2014年

5 刘旭;在完全和缺失数据下基于非光滑估计方程的统计推断与变量选择问题[D];云南大学;2010年

6 赵鹏飞;混沌数据恢复与非线性系统的模型参考控制[D];吉林大学;2010年

7 陆福忠;数据缺失下的分布函数估计问题[D];复旦大学;2007年

8 赵慧秀;可交换的两值数据的统计分析[D];东北师范大学;2009年

9 付志慧;多维项目反应模型的参数估计[D];吉林大学;2010年

相关硕士学位论文 前10条

1 杨利华;缺失数据的处理方法研究及应用[D];景德镇陶瓷学院;2011年

2 袁中萸;多元线性回归模型中缺失数据填补方法的效果比较[D];中南大学;2008年

3 母建熊;基于饱和模型的带有缺失的可交换两值数据分析[D];东南大学;2015年

4 雷伟;带有不可忽略缺失数据的混合线性模型的贝叶斯统计推断[D];云南大学;2016年

5 刘星;缺失数据下关于广义线性模型的一些讨论[D];扬州大学;2016年

6 郭似童;缺失数据下半参数模型的序列相关性检验[D];重庆理工大学;2016年

7 崔朝杰;含有缺失数据的两值吸毒数据分析[D];东北师范大学;2009年

8 岳春柳;缺失数据的概率主成分分析[D];东北师范大学;2010年

9 齐丹丹;对含缺失数据的非参可加模型进行成分选取[D];东北师范大学;2010年

10 胡贤利;混合型数据的缺失数据的填补[D];中南大学;2013年



本文编号:1887743

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/zlx/1887743.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d0cdb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com