一种交替运用固定效应和随机效应模型优化全基因组关联分析的算法开发
发布时间:2018-01-26 23:00
本文关键词: FarmCPU 全基因组关联分析(GWAS) 假阳性 假阴性 混杂 算法 出处:《华中农业大学》2016年博士论文 论文类型:学位论文
【摘要】:在全基因组关联分析策略的帮助下,更多的人类疾病和重要农业经济性状的候选基因被发掘出来。但是全基因组关联分析一直饱受两个问题的困扰:大量的假阳性和令人惋惜的假阴性。假阳性是指关联分析结果中对检测标记p值的高估。通常这种高估是由群体结构和个体之间的亲缘关系矩阵造成的。将群体结构作为固定效应加入到一般线性模型中或者同时将群体结构作为固定效应,亲缘关系矩阵作为随机效应加在混合线性模型中可以很好的控制假阳性,但同时两种效应变量与待检测位点之间的混杂问题降低了模型对关联位点的检测效力,造成了一定程度的假阴性。这种现象报道于2010年发表在Nature的一篇拟南芥全基因组关联分析的文章中。由于简单模型(未校正群体分层)p值高估造成的假阳性,和复杂模型(加入了个体间亲缘关系矩阵)p值低估造成的假阴性,开花期类的性状中一些已知的候选基因无论使用一般线性模型还是混合线性模型都无法与背景噪音分离。本文阐述了一个新的算法来解决混合线性模型中存在的混杂问题,名字为 Fixed and random model Circulating Probability Unification‖,简称为FarmCPU。FarmCPU通过交替使用一个固定效应模型和一个随机效应模型来解决模型中的混杂问题。可能关联位点(pseudo QTNs)在固定效应模型中用做协变量来控制假阳性,并通过随机效应模型进行预测。固定效应模型和随机效应模型交替使用直到没有新的可能关联位点加到模型中时,FarmCPU结束。相比混合线性模型,FarmCPU显著的提高了统计效力的计算速度,结果如下:(1)107个拟南芥真实性状的研究结果显示FarmCPU找回了混合线性模型结果中丢失的部分候选基因,并可广泛的应用于人类,猪,小鼠,玉米等各个物种数据。(2)模拟性状的研究结果显示FarmCPU相比当前的混合线性模型具有更高的统计效力,对一个由500个等效关联位点模拟的具有75%遗传力的性状,在10%错误率下,FarmCPU相比混合线性模型多检测到50个关联位点。(3)FarmCPU的计算时间与样本数和标记数成线性比例,一个包含五十万个体,五十万标记的数据可以在三天内完成。因此,研究人员可以用FarmCPU来处理以指数级增长的大数据,而且有更大的可能性成功的检测到感兴趣的候选基因。
[Abstract]:鍦ㄥ叏鍩哄洜缁勫叧鑱斿垎鏋愮瓥鐣ョ殑甯姪涓,
本文编号:1466840
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/1466840.html
教材专著