【摘要】:目的:大规模全基因组测序研究逐渐成为生物遗传与医学研究关注的重要内容,上千种基因与人类复杂疾病的关系已从病理生理及病因学角度得到了比较合理的生物学解释。但是由于更多的人类复杂疾病,可鉴定与解释的遗传变异仅仅是生物遗传因素的一部分。既往研究表明,具有相同或相似临床表现的某些复杂疾病可能具有不同的潜在遗传病因,寻找其罕见变异,探索基因-基因互作及基因-环境互作,结构变异及其它引致遗传力缺失的遗传变异研究尚存在许多未解的难题。有关遗传异质性的研究中,现有的统计方法通常都假定研究疾病均具有相同的遗传效应。若某疾病存在遗传病因的异质性时,现有方法对疾病与遗传因素的关联性分析,有可能会降低其检验效能,甚至得出假阳性分析结果。本研究拟针对现有分析方法低估遗传变异效应问题,提出一种基于U统计量分析的非参数统计方法——异质性加权U检验,集中解决由遗传变异引致的异质性效应;并通过探讨异质性加权U统计量的渐近分布,进而证实该方法高效的计算性能;通过调整加权方案,为解决更多的遗传效应模型应用问题提供新思路。方法:本课题针对既往遗传变异异质效应分析中,分析方法均需假定研究疾病具有相同的遗传病因,缺乏可以用来推断群体异质性亚群(潜在相似度)先验知识的问题,采用重复模拟研究,证实并提出解决有关遗传异质性问题对应的高维数据统计分析方法。模拟人口亚群,按遗传效应、效应大小和方向等设置不同的遗传异质性模型,进而证实异质性加权U、非异质性加权U和GLM等方法的计算效率及灵活性等,以发展改进并提出一些解决低估遗传变异影响力的分析思路与方法,开展对不同亚群(如性别和种族)遗传变异产生的影响研究。发展一种不依赖基因表型特定分布,可广泛应用于定性和定量基因表现型样本分析的方法。结合尼古丁依赖SAGE实例验证并分析具有潜在人群结构与遗传变异,以某种联合方式产生的效应,为遗传变异变量间相互作用问题研究提供新方法。在两个遗传异质性和第三个专门针对非正态分布与错误指定权重函数的模拟试验的集合中,设R=I,基于欧几里德距离的ki,j和交叉积的f(gI,gj)来形成加权函数。每次模拟均重复1000次。根据1000次重复中,P值小于或等于0.05的比率,对比研究异质性加权U、非异质性加权U和常规广义线性模型(GLM)等模型方法的检验效能和Ⅰ型错误。基于尼古丁依赖的SAGE实例,选取Illumina Human 1M DNA Analysis BeadChip芯片基因分型的26个尼古丁依赖相关基因和表型变量等,取基因型所需的最小后验概率为0.9,用Beagle软件进行基因型填补。在对基因型数据进行质量评估基础上,检查每个标记、基因型调用比例等,删除调用比例不足90%的标记,剔除基因型缺失10%以上的个体;并使用标记的最小等位基因均值来填补;对照Hardy-Weinberg平衡标记出过度偏差的标记物等。利用交叉乘积核来计算遗传相似度f(Gi,Gj),运用异质性加权U,结合可能存在的性别异质性效应,逐个分析26个候选基因与尼古丁依赖的关系。对潜在的混杂效应性别、种族、样本来源以及根据全基因组数据计算的前四个主成分作为协变量进行分析。结果:1.异质性加权U检验在遗传异质性模型分析中优势更为突出模拟试验一:假设有两个人口亚群,按照效应大小和方向模拟设置了四种遗传异质性模型,对比分析了异质性加权U、非异质性加权U和GLM三种方法的Ⅰ型错误和检验效能。进一步证实了异质性加权U检验在遗传异质性模型分析中,与非异质性加权U和GLM法相比,控制的Ⅰ型错误更小,方法检验效能更高。呈非正态潜在基因表型分布分析时,异质性加权U检验相较基于参数的GLM法更稳健。为进一步证实遗传模式不明确时的新方法性能,本研究在两个亚群中模拟设置了不同的七种遗传模式,进而证实并提出:当亚群中存在明显的遗传异质性时,异质性加权U优于非异质性加权U及GLM法。2.遗传异质性越大的分类和连续型基因表型分析异质性加权U的计算性能更佳模拟试验二:设定亚群数量增加到20个,潜在结构协变量25个,以更接近真研实景中复杂的潜在人口结构。分别运用异质性加权U、非异质性加权U和GLM三种方法,对二分类和连续型表型数据进行模拟证实。结果表明,复杂潜在结构的二分类和连续型表型数据,采用异质性加权U分析,都明显优于非异质性加权U和GLM法。当遗传异质性可忽略不计时,三种方法性能基本相近。但对生物遗传信息利用模型研究中,若纳入噪声参数时,异质性加权U与非异质性加权U和GLM三种方法的检验效能均有所降低。异质性加权U与非异质性加权U和GLM三种方法的几种模型的Ⅰ型错误均小于0.05。无论是二分类表型,还是连续型表型,异质性加权U都具有更高的检验效能;遗传异质性越大,异质性加权U的性能更佳。3.多基因模型异质性加权U较VCscore检验不仅能更好的控制Ⅰ型错误,且具有更高的检验效能模拟试验三:设基因信息大数据分析的随机效应模型模拟表型为:yi=μ+Ziα+giβi+εi,εi~F,式中,Zi:受试对象i的协变量;a:协变量效应估计系数,误差F服从非正态分布。通过模拟自由度为2的t分布、柯西分布和正态与卡方的混合分布等;并对含有混杂效应(模拟生成与gi相关联的Zi,由于a≠0,Zi也和yi相关联)和未含混杂效应的两种情况,模拟对比异质性加权U和VCscore法的研究过程中都纳入协变量Z的100万个模拟数据研究。进而证实异质性加权U和方差分量评分检验(VCscore),考虑混杂效应基础上,应用自由度为2的t分布、柯西分布和正态和卡方混合分布的稳健性均好。无论是否含有混杂效应,三种非正态分布中异质性加权U均未发现可加大Ⅰ型错误。但存在混杂效应且误差F服从柯西分布时,VCscore法可能会加大Ⅰ型错误。当权重函数指定有误,异质性加权U法虽然控制的Ⅰ型错误很好,但检验效能却有所降低。当含有协变量缺失或加入噪声协变量时,异质性加权U的检验效能也会降低。当临界值取5×l0-5时,异质性加权U的Ⅰ型错误为4.0×10-5。4.异质性加权U在复杂结构基因大数据分析中的应用基于国际上人群迄今为止最大且最全面遗传与环境成瘾性研究(Study of Addiction:Genetics and Environment,SAGE)中,来自酗酒遗传学合作研究(COGA)、可卡因依赖的家系研究(FSCD)和尼古丁依赖的合作遗传学研究(COGEND)三个较大的互补数据集实例,其中女性1445名,男性1272名,包括807名非洲裔美国人,1910名欧洲裔美国人。本研究主要针对尼古丁依赖的Fagerstrom测试项目(FTND)中的每日吸烟量(CPD)的终身得分(lifetime score)、尼古丁使用和依赖的遗传学研究中经常用到的表型变量[16]、有关的人口学特征(如年龄、性别)及环境条件和物质滥用过程的评估[25,26]等资料进行实例验证。考虑性别遗传异质性的实例研究表明,对26个尼古丁依赖候选基因,经异质性加权U分析,17个基因与尼古丁依赖有关;非异质性加权U则仅分析出1个基因与尼古丁依赖有关。在CHRNA5-CHRNA3-CHRNB4基因簇和CHRNB3-CHRNA6基因簇的关联性分析中,两种方法都得出了基因簇与尼古丁依赖有关联性存在的结果。针对CHRNA6和CHRNB3基因的分析结果表明,CHRNA6基因在女性与尼古丁依赖高度相关,而在男性中则尚不能认为有关联性存在;而CHRNB3基因分析则得出了恰好相反的结果。CYP基因分析结果表明,尼古丁依赖与CYP2B6基因高度相关。经对26个尼古丁依赖候选基因分析可见,有遗传异质性存在时,异质性加权U法性能更佳。不同群体遗传变异呈异质性分布时,传统统计方法均要假设遗传变异的影响是相同的,而本文实例分析推荐应用的异质性加权U法不仅容许遗传变异的效应不同,而且可通过调整加权函数,很容易地将该方法由基于遗传异质性检验的可加模型单位点异质性加权U,扩展成多位点效应模型或其它的遗传模型,尤其在构建潜在结构时,加权函数尚可提供一定的灵活性。实例验证分析表明,应用本文介绍的异质性加权U方法,不需要对基因表型进行分布的假设检验,为遗传关联分析提供了结果更稳健、性能更优越的新方法。解决现有统计分析方法无法解决的大数据复杂性问题。结论:课题通过对结构复杂的基因大数据模拟对比和实例验证,完善发展了异质性加权U法,解决了未知基因表型分布研究中的一个难题。三次模拟试验证实,异质性加权U不仅能很好地控制Ⅰ型错误,即使面对更复杂的遗传环境和潜在结构数据,其检验效能均高于文中提及的非异质性加权U、GLM和VCscore检验等,并表现出优越的计算性能。但是,当加权函数指定有误或协变量含有缺失值时,异质性加权U虽优于其它方法,但检验效能也会有所降低。实例验证结果表明,与现有报道的生物学关联解释结果一致。异质性加权U检验,不仅可更好地控制复杂结构多基因潜在异质性模型分析中的Ⅰ型错误,且较传统分析方法具有更高的检验效能,计算效能优于非异质性加权U等。是生物遗传基因异质性大数据分析中性能优,适用范围广,可灵活应用的一种新方法。
【学位授予单位】:山西医科大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:R394
【相似文献】
相关期刊论文 前10条
1 高广信,李霞,郭政;遗传异质性问题的统计方法与程序[J];中国卫生统计;2001年03期
2 毛新,李海;遗传异质性研究方法进展[J];国外医学.遗传学分册;1990年03期
3 郑向忠,徐宏发,陆厚基;动物种群遗传异质性研究进展[J];生物多样性;1997年03期
4 高东;毛如志;朱有勇;;水稻地方品种与改良品种内部遗传异质性的比较分析[J];分子植物育种;2010年03期
5 Suthers GK ,陈红;表型的遗传异质性与单一基因[J];国外医学.遗传学分册;1993年06期
6 王绿娅,蔺洁,刘舒,陈保生;家族性高胆固醇血症样表型遗传异质性的分子基础[J];遗传学报;2005年07期
7 ;Rieger眼畸形中的遗传异质性[J];国外医学.遗传学分册;1994年04期
8 贺楚峰;DFNA2遗传异质性的听力学证据[J];国外医学.耳鼻咽喉科学分册;2003年06期
9 兰林,王宇明;乙型肝炎病毒遗传异质性对干扰素应答性的影响[J];世界华人消化杂志;2002年06期
10 李淑娟;刘晓雯;陈兴健;刘贝贝;郭玉芬;;常见综合征型耳聋临床表型及相关基因研究进展[J];中华耳科学杂志;2018年03期
相关会议论文 前2条
1 李洪义;魏海云;孟舒;蒋玮莹;陈路明;陈争;郑辉;闻人庆;段红蕾;吴维青;张颖;;中国眼皮肤白化病遗传异质性与产前基因诊断研究[A];第六届全国优生科学大会论文汇编[C];2006年
2 ;慢性重型乙型肝炎患者血清病毒全长基因特点及其临床意义[A];第二届全国病毒性肝炎慢性化重症化基础与临床研究进展学术会议论文汇编[C];2012年
相关博士学位论文 前2条
1 张雪芬;遗传异质性加权U统计模型的评估与应用研究[D];山西医科大学;2019年
2 杨之涛;采用新一代测序技术分析不同感染阶段乙型肝炎病毒准种异质性及其临床意义[D];上海交通大学;2015年
相关硕士学位论文 前5条
1 赵小蕾;基于通路的癌症遗传异质性研究方法[D];中山大学;2010年
2 王娜;泛发性色素异常症致病基因的分离与功能分析[D];济南大学;2013年
3 项延包;客家群体线粒体DNA遗传异质性的研究[D];暨南大学;2013年
4 吴凯男;乳腺癌HER2异质性分析及信号调控机制分析[D];第二军医大学;2014年
5 张雪松;拉祜族人群RANTES基因-28C/G多态性及其与糖尿病前期和糖尿病的相关性研究[D];昆明医科大学;2012年
本文编号:
2793355