基于non-local先验的贝叶斯变量选择方法及其在高维数据分析中的应用

发布时间：2020-11-14 19:13

　　目的对高维数据进行变量筛选并构建预测模型是组学数据分析的研究热点之一。本研究旨在为结局为二分类变量的高维组学数据筛选自变量并构建预测结局的稀疏统计模型。方法本研究通过模拟研究和实例分析阐释基于non-local先验的贝叶斯变量选择方法——乘积逆矩先验(product inverse moment,piMOM)相较于惩罚类方法ISIS-光滑平切绝对偏差(iterative sure independence screening-smoothly clipped absolute deviation,ISIS-SCAD)和ISIS-最小最大凹惩罚(iterative sure independence screening-minimax concave penalty,ISIS-MCP)在高维数据中变量筛选及其预测效果的性能优劣。结果模拟研究发现:在高维的情况下,经piMOM、ISIS-SCAD和ISIS-MCP方法筛选所得变量的平均真阳性数和受试者工作特征曲线下面积(AUC,area under curve)基本相等,ISIS-SCAD、ISIS-MCP的平均假阳性数、回归系数均方误差以及预测均方误差明显高于基于non-local先验的贝叶斯变量方法所获得的对应值。piMOM方法分析弥漫大B细胞淋巴瘤实例数据共识别5个有意义的基因,AUC为0.996;ISIS-SCAD识别7个基因,AUC为0.975;ISIS-MCP识别7个基因,AUC为0.968。结论在模型选择相合性和预测准确性方面,piMOM方法与ISIS-SCAD和ISIS-MCP相比,具有优势,在一定意义上可有效控制假阳性率。
【部分图文】：

方案二的模拟结果

备择假设,先验分布,模型参数,维数

本文首先阐释基于non-local先验的贝叶斯变量筛选方法——piMOM,继而通过模拟研究和实例分析探究其在高维数据中的应用,从而比较piMOM、ISIS-SCAD、ISIS-MCP方法在高维数据中进行变量筛选的性能优劣。原理与方法

模拟图,超参数,贝叶斯,模拟图

其中,τ,γ>0为piMOM的两个超参数。τ为尺度参数,γ为形状参数。上述两个超参数分别决定先验函数0附近和两端尾部的分布情况。某种意义上,所构建模型中参数的最小值由尺度参数τ决定。针对“如何对τ值进行合理选择”这一问题,Nikooienejad[8]于2016年给出相关建议:数据经标准化后,能使原假设下和备择假设下概率密度函数交叉面积低于一定阈值(p-α)的最大τ值,即为合理τ值。合理选取该值能在有效控制模型的假阳性率(两者密度函数交叉部分)的同时,保证模型具有较高的灵敏度,见图2。(2)模型空间先验
【相似文献】

相关期刊论文前4条

1 孙红卫;杨文越;王慧;罗文海;胡乃宝;王彤;;惩罚logistic回归用于高维变量选择的模拟评价[J];中国卫生统计;2016年04期

2 何晓霞;徐伟;吴传菊;;分位数回归在医疗消费影响因素研究中的应用[J];数学的实践与认识;2017年18期

3 荣雯雯;张奇;刘艳;;基于正则化回归的变量选择方法在高维数据中的应用[J];实用预防医学;2018年06期

4 张秀秀;王慧;田双双;乔楠;闫丽娜;王彤;;高维数据回归分析中基于LASSO的自变量选择[J];中国卫生统计;2013年06期

相关硕士学位论文前1条

1 田舒;基于边际参数混合治愈模型的变量选择[D];大连理工大学;2019年

本文编号：2883859

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2883859.html

上一篇：慢性腰腿痛行髋关节置换术患者对职业相关危险因素的认知调查
下一篇：公立医院内部价格信息化管理实践——以四川大学华西医院为例

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|