当前位置:主页 > 医学论文 > 病理论文 >

SKAT与惩罚回归模型联合分析策略在遗传关联研究中的应用

发布时间:2019-07-11 14:37
【摘要】:背景全基因组关联研究(Genome-Wide Association Studies,GWAS)成功鉴定出许多与人类各种疾病关联的常见遗传变异,但能解释的疾病遗传风险比例仍然很低。稀有变异由于在人类进化过程中通常新近发生,尚未经受选择压力,更倾向于包含功能性致病位点。随着近年来二代测序技术的快速发展,涌现出大量含稀有变异的遗传关联研究数据;然而稀有变异在人群中频率很低,导致常规统计方法效能低下,给统计分析方法的发展带来新的挑战。早期的基因组关联分析中,单遗传变异关联性检验受限于多重校正后的显著性水平,要求较为苛刻,效能极低。考虑到大部分疾病相关基因里存在多个有潜在功能的遗传变异,特别是稀有变异,将基因内变异聚集以增加其效应的负担检验是处理稀有变异较为常用的一种分析策略。另一方面,以SKAT(sequence Kernel association test)为代表的基于个体间遗传变异相似性的方差分量检验成功地解决了遗传变异间存在的连锁不平衡及基因内变异效应方向不同等问题。但SKAT仅针对单个基因或者感兴趣区域(Region of Interest,ROI)内遗传变异进行分析,忽略了其他基因或基因外围所包括的信息。基因组遗传关联数据呈现高维状态,噪音大,共线性严重,在传统最小二乘与似然估计基础上引入惩罚函数是解决此类问题的有效工具之一。1996年Tibshirani提出基于惩罚思想的LASSO(least absolute shrinkage and selection operator)。Zou等在2005年提出将岭估计和LASSO凸结合,称为“弹性网(Elastic Net)”。2009年和2012年Breheny等和Huang等进一步提出两水平惩罚模型cMCP(composite Minimax Concave Penalty)和Gel(The group exponential lasso),在基因和遗传变异两个水平上进行变量选择,但其理论和应用仍需进一步研究。由于基于基因或roi的skat法只在组水平上进行统计推断,而无法估计单个变异的效应,而常规惩罚模型(lasso和en)虽可估计变异效应,但不做统计推断,因此本研究提出两阶段联合分析策略,将skat与lasso和en联合应用,优势互补,并与成组惩罚模型进行比较,评价各类方法及策略的性能,为遗传关联研究提供方法学选择的依据和指导。方法本研究统计方法选用skat,lasso,en三种方法、两阶段联合应用策略(skat+en,skat+lasso,en+skat,lasso+skat)及两水平惩罚模型(cmcp,gel),比较它们在基因组关联分析、候选基因关联分析研究中的应用性能,并将研究方法应用于lncrnah19,hotair,malat1和meg3与肝癌的病例对照遗传关联研究实例,以说明各类方法的实际应用。在基因组关联分析中,模拟数据源自遗传分析工作组18(geneticanalysisworkshop18,gaw18),共包括849个个体,以50次模拟舒张压作为结局变量,选取第3号染色体的遗传变异数据(含1141个基因的532092个snps)作为自变量;评价指标主要有灵敏、和特异度、约登指数、选出率、相关关系的p值与相关系数在候选基因关联分析中,仍采用gaw18数据,以849个个体的200次模拟舒张压作为结局变量,以模拟数据集中与舒张压实际关联的35个基因119个snps作为自变量,评价各类方法的效能;以与这些基因完全无关联的联系性状q1做为结局变量,评价各类方法的i类错误。评价指标在基因组关联分析指标的基础上增加了绝对误差与相对误差。实证研究中,采用本课题组在广东顺德地区人群中研究lncrnah19,hotair,malat1和meg3与肝癌关联的病例对照数据,共包含604病例和614对照的4个基因共15个snps的信息。结果1.基因组关联研究结果显示,在基因水平上评价,skat的平均灵敏度最高,为0.595;skat+lasso的特异度最高,平均值为0.906。skat的约登指数最高,为0.112,其次是skat+en,为0.086。在snp水平上,en灵敏度最高,skat+lasso特异度最高,en+skat的约登指数最高,为0.016。对舒张压效应贡献最大的实际关联基因MAP4在各种统计分析策略的选出率均为最高,值与基因内的SNPs数和对DBP的解释方差比例存在一定的统计学关联。选出次数最多的SNP为48040283与47957996,位点均属于MAP4,效应真值分别为-6.22与-4.64,效应强度排名分别为第1与第5。2.候选基因关联分析中,在基因水平上,EN的效能最高,为0.638;其次为LASSO,为0.616;SKAT及其联合策略的I类错误最低。在SNP水平上EN效能最高,其次为LASSO。SKAT+EN与SKAT+LASSO的I类错误最低。此外,无论是基因水平还是SNP水平,EN+SKAT的效能虽然略低于EN法与LASSO法,但是在一类错误上远低于二者。MAP4是各模型选出率最高的基因,选出率与基因包含SNPs个数、解释方差比例存在一定的统计学关联。效应真值位列前3的SNPs在各模型中的选出率均属前列,选出率与MAF值、效应真值普遍不存在统计学关联,但与解释的方差比例存在关联。不同统计策略的绝对误差与相对误差和MAF值与方差解释比例之间并无相关关系,而绝对误差与系数真值均存在相关关系3.lncRNA与肝癌病例对照遗传关联研究结果显示,传统的logistic回归仅在单因素分析时挖掘到rs151191249可能与肝癌存在关联,SKAT没有得到有统计关联的基因,而EN和LASSO分别筛选出11和10个与肝癌关联的SNPs,其中包含rs151191249。结论1.在样本量不足900人的基因组关联研究中,EN+SKAT结合的两阶段统计分析策略能够从数百万SNP中把与疾病关联度较高的基因和SNP筛选出来,该策略灵敏度较高,同时假阳性错误的概率较低,为复杂性状基因组关联研究提供了一种有效的统计分析策略。2.在候选基因关联研究中,EN是本研究中效能最高的方法,无论在模拟研究还是实际应用,它能比logistic回归分析挖掘出更多的真关联基因和SNPs。此外,EN+SKAT结合的两阶段分析策略虽然在效能上略低于EN,但是能够明显的降低一类错误的概率,值得在候选基因研究里使用。
【学位授予单位】:广东药科大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:R394

【相似文献】

相关期刊论文 前10条

1 ;2011年全基因组关联研究国际论坛会议通知[J];中华疾病控制杂志;2011年04期

2 严卫丽,顾东风;复杂疾病关联研究中的若干问题[J];遗传学报;2004年05期

3 黄世杰;;全基因组关联研究的进展及其发现和开发药物的潜力[J];国际药学研究杂志;2008年06期

4 马yN楠;陈志越;张英;钮淑兰;许玉凤;裴佩;卜定方;戚豫;;祖先信息标记在关联研究中的应用[J];中华医学杂志;2005年34期

5 郑伟;季林丹;邢文华;涂巍巍;徐进;;肺结核全基因组关联研究进展[J];遗传;2013年07期

6 李莎莎;韩凌;肖雪;黎莉;王义明;罗国安;;全基因组关联研究进展及应用前景[J];广东医学;2011年05期

7 全赞荣;;动脉硬化性脑梗死与人类MHC-DR基因多态性的关联研究[J];中国伤残医学;2009年03期

8 郑玲玲;蔡琳;;肺癌的全基因组关联研究进展[J];卫生研究;2011年05期

9 智联腾;周钢桥;贺福初;;人类复杂疾病关联研究中群体分层的检出和校正[J];遗传;2007年01期

10 王久存;金力;;风湿病的遗传学研究:全基因组关联研究和后全基因组关联研究时代[J];内科理论与实践;2011年05期

相关会议论文 前10条

1 沈洪兵;;全基因组关联研究的现状与挑战[A];华东地区第十次流行病学学术会议暨华东地区流行病学学术会议20周年庆典论文汇编[C];2010年

2 李欢;张晓博;陈红岩;卢大儒;;基于全基因组关联研究的中国肺癌风险预测模型研究[A];2012年中国青年遗传学家论坛会议文集[C];2012年

3 白凯;孙天宇;谢雪梅;;旅游目的地形象的符号隐喻关联研究——以陕西省为例[A];地理学与生态文明建设——中国地理学会2008年学术年会论文摘要集[C];2008年

4 王柠;;神经系统复杂疾病全基因组关联研究的现状与展望[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年

5 郭倩;姜磊;殷健;黄少兰;赵静;刘_g;张立斌;吴歆;徐沪济;;Nanodrop检测中260/230值对全基因组关联研究样本质检的重要意义[A];第17次全国风湿病学学术会议论文集[C];2012年

6 段化伟;;多环芳烃致基因组不稳定性表型及其相关基因的关联研究[A];全国生化/工业与卫生毒理学学术会议论文集[C];2010年

7 张昆林;常素华;张柳燕;郭黎媛;王晶;;从全基因组关联研究到与性状相关的生物学通路[A];心理疾患的早期识别与干预——第三届心理健康学术年会论文集[C];2013年

8 温广东;;CTLA-4+49A/G与-318C/T多态性与白塞氏病易感性的关联研究:meta分析[A];中华医学会第十八次全国皮肤性病学术年会论文汇编[C];2012年

9 张娟;许琪;沈岩;;右旋氨基酸氧化酶激活物(DAOA)基因与重型精神病的关联研究[A];中国遗传学会第八次代表大会暨学术讨论会论文摘要汇编(2004-2008)[C];2008年

10 曹音;;儿茶酚氧位甲基转移酶基因多态性与糖尿病伴抑郁的关联研究[A];中华医学会第十次全国精神医学学术会议论文汇编[C];2012年

相关重要报纸文章 前3条

1 记者 冯立中;我国学者发现精神分裂症易感基因[N];健康报;2011年

2 记者 陈江 通讯员 黎霞;我区莫曾南教授在《自然》在线发表论文[N];广西日报;2012年

3 冯立中 记者 吴长锋;我学者发现麻风、精神分裂症易感基因[N];科技日报;2011年

相关博士学位论文 前6条

1 于海兵;瘦素信号通路及脂联素信号通路与2型糖尿病的关联研究[D];南方医科大学;2015年

2 刘汉明;基于最大信息系数的复杂疾病全基因组关联算法研究[D];电子科技大学;2015年

3 潘华;超重/肥胖、幽门螺杆菌感染与胃癌的关联研究[D];兰州大学;2014年

4 李元丰;HBV相关肝病的全基因组关联研究[D];中国人民解放军军事医学科学院;2016年

5 杨威;ACE2基因多态与冠心病/心梗的关联研究及全基因组关联研究中的通路分析方法[D];中国协和医科大学;2008年

6 王晔;视网膜神经节细胞发育调控网络基因单核苷酸多态性与原发性开角型青光眼的关联研究[D];青岛大学;2011年

相关硕士学位论文 前10条

1 王冠华;SNPrs17728461、 rs4488809和rs753955与宁夏汉族人群肺癌遗传易感性的关联研究[D];宁夏医科大学;2015年

2 刘骐嘉;不同胫色优质鸡生产性能比较及其与MC1R基因多态性的相关分析[D];四川农业大学;2015年

3 张俊国;SKAT与惩罚回归模型联合分析策略在遗传关联研究中的应用[D];广东药科大学;2016年

4 龚云峰;上市公司股权结构与效益的关联研究[D];苏州大学;2002年

5 马虹霞;哈密市物流业与其相关产业的灰色关联研究[D];华中农业大学;2010年

6 黄少兰;人群特异标记对风湿病关联研究的影响以及在关联研究人群分层分析中的应用[D];第二军医大学;2012年

7 李香梅;《兴夫传》与中国文化关联研究[D];延边大学;2014年

8 潘韵;英汉即兴演讲同传中停顿特点与流利度的关联研究[D];北京外国语大学;2015年

9 宋杰洁;上海市就业—居住关系与城市通勤的关联研究[D];华东师范大学;2010年

10 马昭君;全基因组关联研究中的二阶段病例-对照设计[D];南京医科大学;2010年



本文编号:2513234

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/binglixuelunwen/2513234.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6b2b3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com