高维基因数据中的统计方法
本文关键词: 扫描统计量 全基因组关联分析 渐近性质 广义线性模型 变量选择 出处:《清华大学》2016年博士论文 论文类型:学位论文
【摘要】:人类遗传学研究的一个重要目标是发现和识别人类疾病的遗传基础。现有的检验方法是检验表型和指定区域中遗传变异体的关联性,例如检验疾病和基因间的相关性。然而由于全基因组测序数据中包含大量的基因间区段,因此序列中的分析单位并没有很清晰的界定。鉴于此,我们提出了一种基于二次扫描统计量的检验方法。该方法通过连续扫描全基因组序列来检验信号区域的存在和位置。我们提出的方法考虑到了以下三种情况:由连锁不平衡引起的单核苷酸多态性间的相关性,在信号区域中同时出现致病性和非致病性突变,以及在信号区域中同时出现正效应和负效应致病性突变。本文给出了所提出扫描方法的渐近性质。我们得到了可以渐近控制族错误率的理论阈值并表明在一定的正则性条件下,所提出的方法能以趋于1的概率选择出确切的信号区间。我们通过模拟研究来评估上述方法的有限样本性质。模拟结果显示,我们的方法在以下三种情况下优于现有的其他方法:信号区域中的突变相关,信号区域中出现非致病性突变,信号区域中同时出现正效应和负效应致病性突变。我们将所提出的方法应用到一组肺癌全基因组关联研究中,得到了与肺癌相关的遗传变异区域。在遗传学研究中,人们关心的另一个重要问题是估计所选变量的效应量。从高维基因数据中选择出一组与疾病相关的变量同时基于这些变量建立合理的预测模型是一项非常具有挑战性的任务。合理的变量选择和准确的效应量估计可以帮助我们建立易于解释且有效的预测模型。惩罚似然法提供了一种可以同时进行变量选择和参数估计的统计方法。受此启发,本文提出了一种在广义线性模型中利用SELO惩罚来进行变量选择和参数估计的方法,我们称之为SELO-GLM。SELO惩罚是一种近似非光滑L0惩罚的光滑惩罚函数。在文章中,我们给出SELOGLM的高效算法,同时证明了SELO-GLM估计的Oracle性质。在较宽泛的正则性条件下,我们指出应用BIC选择调整参数,SELO-GLM/BIC能以趋于1的概率选择出正确的模型。文章中应用数值模拟的方法比较了SELO-GLM和现有的几种似然惩罚方法。模拟结果指出,在变量个数较多和信号较弱的情况下,SELO-GLM的有限样本性质要优于现有的其他方法。最后我们应用SELO-GLM分析了一组乳腺癌基因数据并从中选出了与乳腺癌发生率相关的SNPs。
[Abstract]:An important objective of human genetics research is to identify and identify the genetic basis of human diseases. Existing testing methods examine the association of phenotypes with genetic variants in designated regions. For example, testing the correlation between disease and genes. However, because the whole genome sequencing data contain a large number of intergenic segments, the units of analysis in the sequence are not clearly defined. We propose a test method based on quadratic scan statistics. This method checks the existence and location of the signal region by continuously scanning the whole genome sequence. The proposed method takes into account the following three situations:. The association of single nucleotide polymorphisms caused by linkage disequilibrium, Both pathogenicity and non-pathogenicity mutations occur in the signal region. In this paper, the asymptotic properties of the proposed scanning method are given. The theoretical threshold of error rate of asymptotically controlled families is obtained and it is shown that under certain regularity conditions, The proposed method can select the exact signal interval with the probability of approaching 1. We evaluate the finite sample properties of the above method by simulation study. The simulation results show that, Our method is superior to other existing methods in three cases: mutation correlation in the signal region, non-pathogenic mutation in the signal region, Both positive and negative mutations occur in the signal region. We applied the proposed method to a whole genome association study of lung cancer and obtained genetic variation regions associated with lung cancer. Another important concern is to estimate the effect of selected variables. It is highly selective to select a set of disease-related variables from high-dimensional genetic data and to build a reasonable prediction model based on these variables. Reasonable variable selection and accurate estimation of effect quantities can help us to establish an easily explained and effective prediction model. The penalty likelihood method provides a system for variable selection and parameter estimation at the same time. Method of calculation. Inspired by this, In this paper, we propose a method of variable selection and parameter estimation using SELO penalty in generalized linear model. We call SELO-GLM.SELO penalty a smooth penalty function that approximates non-smooth L0 penalty. We give an efficient algorithm for SELOGLM and prove the Oracle property of SELO-GLM estimator. We point out that the correct model can be selected with the probability of approaching 1 by using BIC to select the adjustment parameter. In this paper, we use numerical simulation to compare SELO-GLM with several existing likelihood penalty methods. The simulation results show that, The finite sample properties of SELO-GLM are superior to those of other methods when the number of variables and signals are weak. Finally, we use SELO-GLM to analyze a group of breast cancer gene data and select the SNPs related to the incidence of breast cancer.
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:O212
【相似文献】
相关期刊论文 前10条
1 戴伯新;;回归变量选择中的数据诊断[J];应用概率统计;1992年04期
2 杨丽霞;魏立力;;基于粗糙集方法的有序尺度变量选择[J];宁夏大学学报(自然科学版);2009年02期
3 赵宇;黄思明;;带有变量选择过程的分类模型误差分析[J];数学的实践与认识;2010年17期
4 樊亚莉;徐群芳;;稳健的变量选择方法及其应用[J];上海理工大学学报;2013年03期
5 陶靖轩;多元分析中的变量选择问题研究[J];中国计量学院学报;2001年01期
6 李树军,纪宏金;对应聚类分析与变量选择[J];地球物理学进展;2005年03期
7 陈黎明;赵永红;;转换函数未知时转换模型的变量选择[J];四川大学学报(自然科学版);2011年05期
8 刘民千,张润楚;超饱和设计的变量选择[J];南开大学学报(自然科学版);2000年03期
9 王进;;聚类分析中的距离与变量选择[J];山西财经大学学报;2007年S1期
10 张波;方国斌;;高维面板数据降维与变量选择方法研究[J];统计与信息论坛;2012年06期
相关会议论文 前6条
1 张俊华;方伟武;;调查表分析中变量选择的一些方法(英文)[A];中国运筹学会第六届学术交流会论文集(下卷)[C];2000年
2 李洪东;梁逸曾;;高维数据变量选择新方法研究[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
3 李慷;席裕庚;;复杂过程系统中操作变量选择与定位的方法研究[A];1993年控制理论及其应用年会论文集[C];1993年
4 云永欢;王为婷;梁逸曾;;迭代的保留有信息变量来筛选最佳变量子集的一种多元校正变量选择方法[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
5 徐登;范伟;梁逸曾;;紫外光谱结合变量选择和偏最小二乘回归同时测定水中重金属镉、锌、钴[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
6 梁逸曾;李洪东;许青松;曹东升;张志敏;;灰色化学建模与模型集群分析——兼论过拟合、稳健估计、变量选择与模型评价[A];中国化学会第27届学术年会第15分会场摘要集[C];2010年
相关博士学位论文 前10条
1 吕晶;几类半参数回归模型的稳健估计与变量选择[D];重庆大学;2015年
2 王康宁;几类高维复杂数据半参数模型的结构识别、变量选择及稳健估计[D];山东大学;2016年
3 李子林;高维基因数据中的统计方法[D];清华大学;2016年
4 王大荣;分散度量模型中的变量选择[D];北京工业大学;2009年
5 王明秋;高维数据下若干回归模型的变量选择问题研究[D];大连理工大学;2012年
6 刘吉彩;生存数据统计模型的变量选择方法[D];华东师范大学;2014年
7 樊亚莉;稳健变量选择方法的若干问题研究[D];复旦大学;2013年
8 唐凯临;变量选择和变换的新方法研究[D];同济大学;2008年
9 董莹;高维共线性统计模型的参数估计与变量选择[D];大连理工大学;2014年
10 叶飞;相对误差准则下的估计理论和变量选择方法的研究[D];清华大学;2013年
相关硕士学位论文 前10条
1 赵冬琦;基于变量选择的股指期货对股票市场影响的实证研究[D];兰州大学;2015年
2 程勇;多水平模型的变量选择在农户人均收入数据中的应用[D];云南财经大学;2015年
3 邓秋玲;SCAD和ADS方法在比例风险模型中的应用[D];广西大学;2015年
4 韦新星;几种变量选择方法在Cox模型中的应用[D];广西大学;2015年
5 王唯;部分线性模型的变量选择问题研究[D];湘潭大学;2015年
6 潘玉婷;含多元非线性结构的高维Logistic模型的同时变量选择及半参数估计[D];中国科学技术大学;2016年
7 刘丹;Cox模型及变系数Cox模型中的变量选择问题研究[D];暨南大学;2016年
8 罗昊;基于自适应LASSO变量选择的Logistic信用评分模型研究[D];东南大学;2016年
9 王双宝;基于变量选择偏差的变量选择过程[D];电子科技大学;2016年
10 温征;纵向和生存数据联合模型的一个变量选择问题[D];云南师范大学;2016年
,本文编号:1513063
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1513063.html