基于non-local先验的贝叶斯变量选择方法及其在高维数据分析中的应用
发布时间:2020-11-14 19:13
目的对高维数据进行变量筛选并构建预测模型是组学数据分析的研究热点之一。本研究旨在为结局为二分类变量的高维组学数据筛选自变量并构建预测结局的稀疏统计模型。方法本研究通过模拟研究和实例分析阐释基于non-local先验的贝叶斯变量选择方法——乘积逆矩先验(product inverse moment,piMOM)相较于惩罚类方法ISIS-光滑平切绝对偏差(iterative sure independence screening-smoothly clipped absolute deviation,ISIS-SCAD)和ISIS-最小最大凹惩罚(iterative sure independence screening-minimax concave penalty,ISIS-MCP)在高维数据中变量筛选及其预测效果的性能优劣。结果模拟研究发现:在高维的情况下,经piMOM、ISIS-SCAD和ISIS-MCP方法筛选所得变量的平均真阳性数和受试者工作特征曲线下面积(AUC,area under curve)基本相等,ISIS-SCAD、ISIS-MCP的平均假阳性数、回归系数均方误差以及预测均方误差明显高于基于non-local先验的贝叶斯变量方法所获得的对应值。piMOM方法分析弥漫大B细胞淋巴瘤实例数据共识别5个有意义的基因,AUC为0.996;ISIS-SCAD识别7个基因,AUC为0.975;ISIS-MCP识别7个基因,AUC为0.968。结论在模型选择相合性和预测准确性方面,piMOM方法与ISIS-SCAD和ISIS-MCP相比,具有优势,在一定意义上可有效控制假阳性率。
【部分图文】:
方案二的模拟结果
本文首先阐释基于non-local先验的贝叶斯变量筛选方法——piMOM,继而通过模拟研究和实例分析探究其在高维数据中的应用,从而比较piMOM、ISIS-SCAD、ISIS-MCP方法在高维数据中进行变量筛选的性能优劣。原理与方法
其中,τ,γ>0为piMOM的两个超参数。τ为尺度参数,γ为形状参数。上述两个超参数分别决定先验函数0附近和两端尾部的分布情况。某种意义上,所构建模型中参数的最小值由尺度参数τ决定。针对“如何对τ值进行合理选择”这一问题,Nikooienejad[8]于2016年给出相关建议:数据经标准化后,能使原假设下和备择假设下概率密度函数交叉面积低于一定阈值(p-α)的最大τ值,即为合理τ值。合理选取该值能在有效控制模型的假阳性率(两者密度函数交叉部分)的同时,保证模型具有较高的灵敏度,见图2。(2)模型空间先验
【相似文献】
本文编号:2883859
【部分图文】:
方案二的模拟结果
本文首先阐释基于non-local先验的贝叶斯变量筛选方法——piMOM,继而通过模拟研究和实例分析探究其在高维数据中的应用,从而比较piMOM、ISIS-SCAD、ISIS-MCP方法在高维数据中进行变量筛选的性能优劣。原理与方法
其中,τ,γ>0为piMOM的两个超参数。τ为尺度参数,γ为形状参数。上述两个超参数分别决定先验函数0附近和两端尾部的分布情况。某种意义上,所构建模型中参数的最小值由尺度参数τ决定。针对“如何对τ值进行合理选择”这一问题,Nikooienejad[8]于2016年给出相关建议:数据经标准化后,能使原假设下和备择假设下概率密度函数交叉面积低于一定阈值(p-α)的最大τ值,即为合理τ值。合理选取该值能在有效控制模型的假阳性率(两者密度函数交叉部分)的同时,保证模型具有较高的灵敏度,见图2。(2)模型空间先验
【相似文献】
相关期刊论文 前4条
1 孙红卫;杨文越;王慧;罗文海;胡乃宝;王彤;;惩罚logistic回归用于高维变量选择的模拟评价[J];中国卫生统计;2016年04期
2 何晓霞;徐伟;吴传菊;;分位数回归在医疗消费影响因素研究中的应用[J];数学的实践与认识;2017年18期
3 荣雯雯;张奇;刘艳;;基于正则化回归的变量选择方法在高维数据中的应用[J];实用预防医学;2018年06期
4 张秀秀;王慧;田双双;乔楠;闫丽娜;王彤;;高维数据回归分析中基于LASSO的自变量选择[J];中国卫生统计;2013年06期
相关硕士学位论文 前1条
1 田舒;基于边际参数混合治愈模型的变量选择[D];大连理工大学;2019年
本文编号:2883859
本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2883859.html