目的:以前的研究表明,样本标记错误在组学数据中并不少见。样本标记错误是由于漏诊或误诊,样本的异质性,实验中的技术问题等造成。这些潜在的异常点会导致病人接受不适合的治疗,且会影响可靠地筛选疾病相关的生物标记物。对这些错分样本进行识别,以及从错分高维组学数据中进行正确地特征选择是一个亟待解决的问题。本文第一部分提出了基于截尾的稳健惩罚Logistic回归,探讨了理论性质,提出算法来求解估计,并与其它解决错分高维组学数据的方法进行比较,便于实际中选用合适的方法。类似的异常点会也会降低惩罚Cox回归变量选择的准确性。如果这些异常点不是因为实验或记录误差造成,这可能意味着这些患者的生存时间相对于其协变量有不同的关联模式。通过对这些异常值的识别和分析,有可能找到新的预后因素并对其进行个体化治疗。本文第二部分提出了基于截尾的稳健惩罚Cox回归,并提出算法来求解估计,以便可靠地进行变量筛选和异常点识别。方法:本文第一部分提出了基于截尾的LASSO类型的惩罚Logistic回归(LASSO-type maximum trimmed likelihood estimator,MTL-LASSO),并扩展到弹性网惩罚(EN-type maximum trimmed likelihood estimator,MTL-EN)。其中探讨了MTL-LASSO的理论性质,提出结合接受-拒绝算法和C-step(Concentration steps)算法的AR-Cstep(C-step based on acceptance-rejection)算法来求解MTL-LASSO估计和MTL-EN估计,并将MTL-EN与其他三种解决错分高维变量选择问题的方法,即采用C-step算法的基于截尾的弹性网类型惩罚Logistic回归(enetLTS),稀疏标签噪声稳健Logistic回归(Rlogreg),和将弹性网、稀疏偏最小二乘估计进行综合的Ensemble方法,在特征选择、异常值识别以及预测的准确性方面进行模拟评价。将四种方法应用于包含有不一致标签样本的三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)RNA-seq数据集中,对其识别的错分样本和筛选的基因进行比较。本文第二部分提出了基于截尾的弹性网类型惩罚Cox回归(ElasticNet-type maximum trimmed partial likelihood estimato,MPTL-EN),并提出结合接受-拒绝算法和C-step算法的AR-Cstep算法求解MPTL-EN,通过重加权步后得到估计Rwt MTPL-EN(Reweighted MTPL-EN)。通过模拟实验来比较MPTL-EN与非稳健的弹性网的在变量选择、异常点识别以及预测方面的性能。对胶质瘤患者的基因表达数据进行实例分析,以说明其应用。结果:第一部分:(1)对MTL-LASSO的理论性质的探讨得出,LASSO类型的惩罚Logistic回归估计是存在且有界的,当一个可以取任意值的异常点替换原来数据时,LASSO估计值会趋向于0,导致模型无效。本文给出了不同于一般模型的、适合于惩罚Logistic回归崩溃点(Breakdown point,BDP)的定义,给出并证明了MTL-LASSO的BDP,指出MTL-LASSO能抵抗的异常点比例,即是其截尾比例。通过LASSO与MTL-LASSO的模拟实验得出,在没有错分样本时,MTL-LASSO的结果与LASSO相近,而当存在异常点时,LASSO受异常点的影响非常大,而MTL-LASSO的却保持稳定。重加权后的Rwt MTL-LASSO进一步提高了性能。(2)MTL-EN,enetLTS,Rlogreg和Ensemble四种方法比较的模拟实验得出,当只有y异常时,Ensemble在变量选择方面综合指标最高,但是其PSR要低于MTL-EN。当异常点比例增大Ensemble变量选择的准确性下降幅度较大,特别当x也存在异常时,Ensemble变量选择的准确性在四种方法中处于最低,而MTL-EN变量选择准确性最高。异常点识别方面,MTL-EN在四种方法中表现最好,敏感性Sn较高,且假阳性FPR控制在2%以内。就预测准确性而言,MTL-EN错分率较低。且MTL-EN运算时间也远远小于enetLTS和Ensemble,说明采用AR-Cstep算法能够让迭代收敛较快,且收敛到不含异常点的子集上,从而能够更准确地筛选变量或识别异常点。(3)通过实例分析发现,MTL-EN和enetLTS分别在47个和43个检测到的异常值中都识别出了7个不一致标签的可疑个体,这一结果优于其他两种方法。enetLTS识别的错分样本全是非TNBC患者,而MTL-EN分别识别的错分样本中还有13个TNBC患者,其中包含1个是不一致标签的可疑样本。就筛选的基因方面,MTL-EN和enetLTS筛选的基因较多,其效应量较小,根据模拟实验的结果,其敏感度高,也就是尽量包含与TNBC有关的基因,所以可以作为初步筛选的基因。Rlogreg和Ensemble筛选的基因较少,虽然Ensemble发现的基因都与TNBC有关,但数量太少,敏感度太低,没有发掘更多与TNBC有关的基因。第二部分模拟研究表明,有异常值的高维数据集中,稳健的MPTL-EN在变量选择、异常值检测和预测方面表现优于非稳健的弹性网惩罚的Cox回归,而且重加权的Rwt MTPL-EN估计要好于没有进行重加权的Raw MTPL-EN。(1)当没有异常点时,Rwt MTPL-EN(Reweighted MTPL-EN)的结果与弹性网接近。当存在异常点时,稳健的Rwt MPTL-EN在变量选择、异常值检测和预测方面表现优于非稳健的弹性网。相对于其预后指数“失效太早”的异常点,“活得太久”的异常点会使得弹性网表现更差,而Rwt MTPL-EN更易于将“活得太久”的异常点识别出来,且无论在对称还是非对称异常点下,准确性保持稳定。(2)当删失比例增大,弹性网和Rwt MTPL-EN的性能都有下降,但Rwt MTPL-EN的性能一直高于弹性网。相对于截尾比例低于异常点比例时,当截尾比例等于或高于异常点比例时Rwt MTPL-EN的结果要更好。(3)当y方向异常偏离增大时,使得弹性网选择的变量变少,当x方向也出现异常时,即异常观测的自变量也偏离主体时,弹性网选择的变量远远大于真实的非零变量个数,这两种情况都使得弹性网选择的变量准确性下降。而Rwt MTPL-EN在各种情况下均保持稳定,说明Rwt MTPL-EN能够同时抵抗x方向和y方向的异常点。(4)通过胶质瘤基因表达数据的分析可以看到,Rwt MTPL-EN筛选的变量与弹性网有差异,识别了更高比例的报道与胶质瘤有关的基因。在去除异常点后,其预测准确性高于弹性网,且识别了更多相对于预后指数“活得太久”的异常点。结论:本文探讨了基于截尾的LASSO类型(MTL-LASSO)和弹性网类型的稳健惩罚Logistic回归(MTL-EN)。对惩罚Logistic回归和MTL-LASSO的理论性质进行探讨和证明,给出MTL-LASSO稳健性与截尾比例的关系。本文还提出了求解MTL-LASSO和MTL-EN估计的AR-Cstep算法,通过与采用C-step算法的enetLTS比较的模拟实验可以看到,采用AR-Cstep算法的收敛更快,变量选择和异常点识别的准确性更高。MTL-EN在识别错分异常点方面是最为推荐的方法,识别的敏感性最高,且能控制假阳性率在较低的范围内。在变量选择方面,如果不存在x方向异常,且要求变量选择的FDR较低,推荐的方法是Ensemble。如果x方向存在异常,特别是要求变量选择的敏感度较高时,则应该选择MTL-EN。本文建立的基于截尾的稳健惩罚Cox模型Rwt MPTL-EN,能够在异常点存在时,相比非稳健的弹性网模型,能够更加准确地进行变量选择。它能够同时抵抗比例很大的x方向和y方向的异常点。Rwt MPTL-EN能够更准确地识别异常点,特别是在识别“活得太久”异常点方面,而“活得太久”的异常点对弹性网变量选择准确性影响更大。本文建立的基于残差的AR-Cstep算法,使得算法不再依赖于从模型的似然函数中分离出个体的贡献,而且解决惩罚回归中惩罚参数改变导致C-step不收敛的问题,这种改进可以使得AR-Cstep算法推广到更多的模型。
【学位单位】:山西医科大学
【学位级别】:博士
【学位年份】:2020
【中图分类】:R195.1
【部分图文】: 山西医科大学博士学位论文16的含义是没有用重加权的基于截尾的惩罚Logistic回归。而RwtMTL-LASSO表示在RawMTL-LASSO的基础上考虑了重加权。对于LASSO,调整参数λ的选择基于100个交叉验证数据集。MTL-LASSO中子集的样本量设定为h=0.75n。所有的交叉验证都是10折交叉验证。图5-1模拟情形(2)只有y异常时y与=′时的散点图(注:黑色实心是正常点,红色空心是异常点)图5-2模拟情形(3)x和y都异常时y与PI=′时的散点图
山西医科大学博士学位论文16的含义是没有用重加权的基于截尾的惩罚Logistic回归。而RwtMTL-LASSO表示在RawMTL-LASSO的基础上考虑了重加权。对于LASSO,调整参数λ的选择基于100个交叉验证数据集。MTL-LASSO中子集的样本量设定为h=0.75n。所有的交叉验证都是10折交叉验证。图5-1模拟情形(2)只有y异常时y与=′时的散点图(注:黑色实心是正常点,红色空心是异常点)图5-2模拟情形(3)x和y都异常时y与PI=′时的散点图
山西医科大学博士学位论文28异常点比例增大,对Ensemble的结果影响最大,变量选择的准确性下降幅度较大(GM0.673vs0.562),异常点识别的敏感度也下降幅度较大(Sn0.520vs0.393)。而MTL-EN变量选择准确性下降幅度较小(GM0.424vs0.380),异常点识别的敏感度也下降较小(Sn0.600vs0.534)。表6-2Rlogreg,enetLTS,MTL-EN,Ensemble四种方法结果比较(n=100,p=1000)*MethodsVariablesselectionOutliersdetectionPredictionModelsizePSRFDRGMNumSnFPRMRRlogreg17.970.2000.6710.2563.080.4050.0160.1480.05enetLTS92.990.6360.6830.4223.330.4680.0150.134MTL-EN73.280.6460.6990.4243.90.6000.0160.131Ensemble14.910.4910.0220.6732.380.5200.003-Rlogreg18.210.1310.7820.2063.010.2300.0100.1690.1enetLTS105.030.5850.7180.3695.420.4070.0190.163MT-EN77.480.5960.7320.3806.580.5340.0190.166Ensemble11.260.3550.0520.5623.630.3930.001-*:,异常点比例图6-1Rlogreg,enetLTS,MTL-EN和Ensemble四种方法在y方向异常时的变量选择准确性(n=100,p=200)
【相似文献】
相关期刊论文 前10条
1 鲁立刚,丁锟,杨文泉,张辉,丁元欣;Cox线性Logistic模型在新生儿窒息原因回顾性分析中的应用[J];黑龙江医药科学;2002年05期
2 彭崇基,守山正树,斋藤宽,黄阳葵;用形态发育指标预测月经初潮年龄的研究──Cox线性Logistic模型的应用[J];中国学校卫生;1994年06期
3 杨江琳;隗伏冰;韦哲;;新生儿窒息原因的定量分析及判别模型——Cox线性Logistic模型的应用[J];数理医药学杂志;1992年02期
4 孙昌盛;田俊;许大荷;;应用Cox—Logistic线性回归方法探讨福州市低体重儿发生因素[J];福建医学院学报;1991年04期
5 赵琼晖;高二伟;赵旭;谢宗良;林起辉;潘清;刘建军;;基于LASSO方法的logistic回归模型在城市老年人群金属暴露与高尿酸血症相关性研究中的应用[J];环境与健康杂志;2019年07期
6 王娉;郭鹏江;夏志明;;Logistic模型中参数的自适应Lasso估计[J];西北大学学报(自然科学版);2012年05期
7 孙中华,王梅;Cox模型处理条件Logistic回归考察升主动脉压力波谷峰值与冠心病的相关性[J];数理医药学杂志;2004年01期
8 王小燕;方匡南;谢邦昌;;Logistic回归的双层变量选择研究[J];统计研究;2014年09期
9 陈丙文;陈斌斌;陈彩平;;肺炎支原体感染并发消化系统损害患儿的有关特征及发病因素的Logistic回归分析[J];中国中西医结合消化杂志;2019年12期
10 李杰;段光友;曾义;段振馨;吴卓熙;杨贵英;李洪;;人工神经网络、极端梯度提升和Logistic回归用于预测再次剖宫产术中输血的比较分析[J];第三军医大学学报;2019年24期
相关博士学位论文 前10条
1 孙红卫;基于截尾的稳健惩罚Logistic回归和稳健惩罚Cox回归及在组学数据分析中的应用[D];山西医科大学;2020年
2 张百红;多因素Cox回归分析构建肝癌分期系统[D];第二军医大学;2005年
3 程莉;Logistic回归模型在附件包块良恶性鉴别诊断中的应用[D];复旦大学;2009年
4 张鹏;体外冲击波治疗上尿路结石的疗效预测:人工神经网络和Logistic回归模型的建立与比较[D];南方医科大学;2012年
5 李云鹏;模拟高原缺氧和氰化钠中毒对大鼠COX的影响机制研究[D];第三军医大学;2008年
6 钱俊;生存分析中删失数据比例对Cox回归模型影响的研究[D];南方医科大学;2009年
7 曲道炜;桂枝芍药知母汤对AA大鼠COX信号通路介导的免疫调控研究[D];辽宁中医药大学;2016年
8 边云;基于因子分析多元有序Logistic回归对慢性胰腺炎分级诊断模型的研究[D];第二军医大学;2016年
9 杨兴海;脊柱转移癌预后相关因子筛选及Cox模型构建[D];第二军医大学;2007年
10 彭愉康(Pang Peter);针灸在香港的历史、现状、发展展望及香港社会人口与针灸使用的关系的Logistic回归分析[D];南京中医药大学;2014年
相关硕士学位论文 前10条
1 颜霞;基于Cox和Logistic模型的家庭背景对教育机会影响的问题研究[D];华北电力大学(北京);2011年
2 赵仕佳;影响前列腺癌预后的多因素Cox回归分析及穿刺点数选择的Logistic回归模型的建立[D];广州医学院;2011年
3 陈德强;基于COX比例风险模型探讨经皮椎间孔镜治疗单节段LDH的2年预后分析[D];广西中医药大学;2019年
4 李金花;基于Logistic模型的行人过街使用手机对交通安全影响研究[D];重庆大学;2017年
5 符崇垚;基于诊断比值的Logistic回归分析对中东原油的鉴别[D];大连海事大学;2017年
6 原续菲;利用Logistic模型对预约挂号爽约行为的研究[D];昆明理工大学;2016年
7 孟婷;基于Logistic模型的供应链金融信用风险研究[D];湖南大学;2016年
8 崔瑞娟;应用Cox比例风险回归模型分析上皮性卵巢癌的预后因素[D];新疆医科大学;2016年
9 冯伟;Logistic回归和决策树在数据库营销响应中的应用[D];兰州财经大学;2015年
10 杜鹏鹏;基于Logistic模型的产能过剩行业财务风险研究[D];上海社会科学院;2015年
本文编号:
2865031