基因水平的疾病遗传关联分析方法研究

发布时间：2017-10-27 00:02

本文关键词：基因水平的疾病遗传关联分析方法研究

【摘要】：目的：基于单核苷酸多态性（Single nucleotide polymorphism，SNP）的全基因组关联研究（Genome wide association study，GWAS）能够有效地挖掘多基因复杂性状疾病的易感基因，在国内外的疾病遗传关联研究中已得到了广泛应用。但由于单纯SNP的关联分析存在一些缺点和限制，近年来更多研究开始发展基因水平的疾病遗传关联分析方法。本研究目的是发展一种新的基于连锁不平衡（Linkagedisequilibrium，LD）结构的基因水平关联分析方法，利用Monte Carlo数据模拟方法对其及其它几种常用的基因水平的关联分析方法进行评价，了解各种方法的优缺点和适用条件，并将新方法应用到真实的冠心病GWAS数据，挖掘冠心病相关的易感网络模块和基因，为复杂性状疾病的发病机制研究提供新线索。方法： 1、利用Monte Carlo方法模拟基因水平的遗传关联数据。首先假定基因型数据为连续型变量数据且服从多元正态分布，根据预先设定好的相关矩阵即LD系数矩阵（初始LD阵），产生连续型模拟数据；然后根据预设的病例组和对照组的基因型频率将模拟数据分段离散化，产生符合各项预设条件的遗传模拟数据，且基因型模拟数据的相关阵等于初始LD阵。 2、利用Monte Carlo模拟数据评价基因水平的关联分析方法。我们发展了一种新的基于LD结构的基因水平关联分析方法（LD-Fisher）：首先利用单倍型分析算法对基因的LD结构进行分析，获得基因上相对独立的单倍域，并获得每个单倍域中关联最显著的SNP，然后利用Fisher组合法获得基因水平的整合分析结果。我们根据病例组和对照组的等位基因频率、SNP与疾病之间的关联系数、SNP数量、单倍域数量、易感SNP数量、SNP的LD结构等参数，采用Monte Carlo方法对参数的各种预设值和组合进行模拟，利用这些模拟数据评价多种基因水平的关联分析方法的统计功效。 3、应用基因水平的关联分析方法分析冠心病GWAS数据，挖掘冠心病易感网络模块和基因。在对冠心病GWAS数据基因水平的关联分析基础上，构建冠心病相关生物信息网络，并对网络模块和特征进行分析，挖掘冠心病相关的易感网络模块和基因。结果： 1、利用SAS程序我们实现了基因水平的遗传关联数据的Monte Carlo模拟，结果显示，模拟遗传数据的等位基因频率和LD结构等参数均非常接近预先设定的参数。 2、在几种基因水平的关联分析方法中， Logistic主成分分析法（Principalcomponent analysis-logistic regression，，PCA-logistic）和我们发展的LD-Fisher表现最为突出。PCA-logistic在设定较高累积贡献率参数95%（PCA95）后，无论单倍域数目多少，其统计功效都接近1，而降低累积贡献率阈值为85%（PCA85）后模拟结果并不理想；LD-Fisher克服了Fisher组合法所存在的受到SNP的LD结构影响的问题，在1个单倍域的情况下统计功效接近1，比PCA95略低，超过PCA85；而在多个单倍域的情况下，达到PCA95的统计功效。 3、通过对冠心病的基因水平关联分析（LD-Fisher）和生物网络分析发现了四个冠心病的易感网络模块，其中最重要的一个模块包含15个相互连通的的子功能模块。我们发现模块中存在两个重要的冠心病易感基因MAPK10（OR=32.5，P3.51011）和COL4A2（OR=2.7，P2.81010），它们得到了其他基因水平的关联分析方法和GWAS数据集的独立验证。结论： 1、我们所发展的基因水平的遗传关联数据的Monte Carlo模拟方法能够产生满足预设参数的模拟数据，并用于基因水平的关联分析方法的评价分析，也可以用于其他遗传关联分析方法的评价。 2、我们所发展的基因水平关联分析方法LD-Fisher不仅具有和PCA-logistic相近的很高的统计功效，而且因为其具有直观简洁的遗传学解释，可以用于多基因复杂疾病的基因水平的关联分析。 3、通过对冠心病真实GWAS数据的应用，我们发现基因水平的关联分析方法和生物网络分析方法能够改善目前单纯应用SNP关联分析所存在的不足，促进多基因复杂疾病的易感性研究和疾病分子机制的阐明。
【关键词】：遗传关联数据 Monte-Carlo模拟 基因水平的关联分析 网络分析 全基因组关联分析
【学位授予单位】：宁波大学
【学位级别】：硕士
【学位授予年份】：2014
【分类号】：R394
【目录】：

摘要4-7
Abstract7-11
引言11-13
第一部分遗传关联数据的模拟及 SAS 实现13-24
1 背景和目的13-14
2 材料和方法14-16
2.1 模拟原理14
2.2 初始 LD 阵14
2.3 连续型基因型数据的模拟14-15
2.4 基因型频率的设定15
2.5 连续型基因型数据的离散化15-16
2.6 产生批量模拟数据16
3 结果分析16-22
3.1 模拟一个单倍域的遗传关联数据16-18
3.2 模拟两个单倍域的遗传关联数据18-22
4 讨论22-24
第二部分利用模拟数据评价基因水平的关联分析方法24-32
1 背景和目的24
2 材料和方法24-26
2.1 遗传关联数据的模拟24-25
2.2 常用的基因水平的关联分析方法25-26
2.3 我们发展的基因水平的关联分析方法（LDFisher）26
3 结果分析26-30
4 讨论30-32
第三部分应用基因水平的关联分析方法挖掘冠心病易感网络模块和易感基因32-44
1 背景和目的32
2 材料和方法32-35
2.1 冠心病的基因水平的关联分析（LDFisher）32-33
2.2 构建和分析冠心病的蛋白质相互作用网络33-34
2.3 通过最显著 SNP 法和 VEGAS 验证功能模块中的易感基因34
2.4 通过 CARDIoGRAMplusC4D 数据集验证功能模块和易感基因34-35
2.5 通过我们基于 GWAS 的网络分析验证之前报道的冠心病易感基因35
3 结果分析35-42
3.1 冠心病的 PPI 网络和易感模块35-38
3.2 通过文献检索验证结果38-41
3.3 通过最显著 SNP 法和 VEGAS 进行验证41
3.4 通过独立的数据集进行验证41
3.5 验证之前报道的冠心病易感基因41-42
4 讨论42-44
参考文献44-47
附录A 综述47-55
参考文献52-55
附录B 程序代码55-69
在学研究成果69-70
致谢70

【相似文献】

中国期刊全文数据库前10条

1 李桂源,潘世[

本文编号：1101012

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/yixuelunwen/shiyanyixue/1101012.html

上一篇：农大Ⅲ系实验小型猪烧伤模型的建立
下一篇：分析探讨更年期卵巢衰退动物模型与肾虚动物模型

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|