基于稀疏主成分变系数模型的基因-环境互作分析
本文关键词:基于稀疏主成分变系数模型的基因-环境互作分析
更多相关文章: 基因环境互作 稀疏主成分 变系数模型 非线性关系
【摘要】:目的基因与环境因素之间的互作分析(G×E)是当代研究的热点问题。针对此类互作分析,最基础的方法即是采用流行病学中的交互效应的理念来建立交互效应项,采用比较成熟的统计手段来判断交互效应是否存在以及它的大小。但是随着人们发现基因与环境之间的交互并非仅仅是相加模型和相乘模型这么简单,同时也发现环境因素对基因的影响也并非均为线性关系,那么传统的互作分析模型就失去了效果。本次研究就是针对全基因组关联分析中环境因素对基因的非线性影响和基因与SNP的高维特征,提出了采用基于稀疏主成分分析与变系数模型相结合的方法来估计环境因素对基因的非线性影响,为基因与环境互作分析提供新的思路和手段。方法鉴于基因是生物体的功能单位,本研究对基因数据以每个gene为单位,对每个gene中的SNP进行稀疏主成分分析处理,然后利用每个gene的稀疏主成分和环境因素构建基因与环境互作的非线性模型。通过不同的模型假定分别介绍了用于探究是否存在基因效应、存在的基因效应是线性效应还是非线性效应的假设检验原理和方法,然后采用非参数统计中B样条的方法来估计各基因整体效应的回归系数,并且进行假设检验。本研究实例分析选自GENEVA的关于新生儿体重的资料。新生儿体重不仅受到自身遗传基因的影响,同时也与母体的环境有关。该资料包含有1126个新生儿个体自身的全基因组信息,将其母亲的口服葡萄糖耐量试验(OGTT)的血糖水平作为环境因素。通过对个体数据的整理,得到12005个基因,采用主成分分析和稀疏主成分分析的方法,利用每个gene的稀疏主成分和环境因素建立关联性模型,并在模型检验结果的基础上进行模拟研究,进一步验证了该方法的可行性。所有的参数估计和假设检验以及模拟证实研究均采用R软件完成,稀疏主成分分析采用Elastic net包实现。结果1、通过对新生儿体重全基因组数据进行分析,将每个基因的稀疏主成分作为基因效应,将新生儿母亲OGTT血糖检测结果作为环境因素来构建稀疏主成分模型。经Manhattan图分析确定ANGPT1(含有67个SNP)和NCOA5(含有15个SNP)两个有意义的基因,它们分别位于8号染色体和20号染色体。经过稀疏主成分分析后,按主成分筛选所解释的变异超过80%标准,基因ANGPT1提取了7个有意义的稀疏主成分,基因NCOA5提取了4个有统计学意义的稀疏主成分。2、对比研究了每个基因的主成分和稀疏主成分作为基因效应拟合模型的效果,经Manhattan图分析表明,两法所找到的有意义基因完全吻合。3、通过不同的模型验证,本研究不仅发现基因NCOA5和基因ANGPT1的总体效应是有显著性的,同时也发现基因的主效应和基因与环境因素(母亲血糖U)的交互效应具有统计学意义。其中,基因ANGPT1的主效应(P=0.0003)比交互效应(P=0.002)更加显著,而基因NCOA5的主效应(P=0.003)要弱于交互效应(P=0.00015)。4、对每个基因的稀疏主成分分析结果显示,在基因ANGPT1中,7个主成分中有4个是有意义的;而在基因NCOA5中,4个主成分中有3个是有统计学意义的。通过对有显著性的稀疏主成分对应的载荷系数分析,进一步找到了有显著性的SNP,它们与母亲血糖存在交互效应,从而影响新生儿体重。5、利用基因ANGPT1和NCOA5有意义的稀疏主成分与母亲血糖水平拟合新生儿体重模型,可以发现随着母亲血糖水平的增高,新生儿体重也有逐渐增加的趋势,并且呈非线性变化,也进一步表明新生儿遗传基因与母亲孕育环境因素的非线性交互效应存在;6、模拟证实表明,随样本量由200增加到500和1000,总体基因效应和基因-环境交互效应的检验效能越来越高;随着模型误差由32?减小到22?和12?,总体基因效应和基因-环境交互效应的检验效能也是逐步提高;在相同样本量、相同模型误差以及相同的?情况下,模型对交互效应的检验效能要明显高于对整体效应的检验效能,说明该模型更加适合于检验非线性交互作用。结论在基因与环境因素互作的研究中,本文在变系数模型的基础上进一步引入了稀疏主成分方法,将二者联合起来对每个基因进行分析,通过不同的模型检验来寻找与环境因素存在交互效应的功能基因,进一步通过有显著性功能基因的稀疏主成分载荷系数来寻找有显著的SNP,从而确定基因与环境的非线性关系。本文通过实例分析和模拟研究都验证了稀疏主成分变系数模型在基因环境互作研究中的可行性,为复杂疾病的G×E研究提供了新的有力工具。本课题为国家自然科学基金“心脏康复二级预防模式评价及数据缺失机制模型研究(编号:81172774)”和“复杂疾病基因与环境互作模型分析方法研究(编号:31371336)”资助项目。
【关键词】:基因环境互作 稀疏主成分 变系数模型 非线性关系
【学位授予单位】:山西医科大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q811.4;R181
【目录】:
- 中文摘要6-9
- 英文摘要9-12
- 常用缩写词中英文对照表12-13
- 前言13-20
- 1 基因-环境互作的一般统计方法14-17
- 1.1 叉生分析14-15
- 1.2 多因子降维法15-16
- 1.3 Logistic回归模型16-17
- 2 新方法及其挑战17-20
- 第一部分 基于稀疏主成分的变系数模型20-36
- 1 变系数模型20-27
- 1.1 基本模型20-21
- 1.2 模型扩展21-22
- 1.3 参数估计22-26
- 1.4 假设检验26-27
- 2 主成分分析(PCA)与稀疏主成分分析(SPCA)27-31
- 2.1 主成分分析27-29
- 2.2 稀疏主成分分析29-31
- 3 稀疏主成分变系数模型(SPC-VCM)31-36
- 3.1 模型构建31-33
- 3.2 参数估计33-34
- 3.3 假设检验34-36
- 第二部分 实例分析与模拟研究36-49
- 1 实例分析36-46
- 1.1 基因与环境关联数据36-37
- 1.2 显著性基因的筛选37-39
- 1.3 基因遗传效应分析39
- 1.4 SPC遗传效应分析39-42
- 1.5 SNP遗传效应分析42-45
- 1.6 小结45-46
- 2 模拟研究46-49
- 2.1 参数设置46-47
- 2.2 模拟结果47-49
- 第三部分 讨论与总结49-52
- 参考文献52-61
- 综述61-72
- 参考文献69-72
- 附录72-92
- 致谢92-95
- 在学期间承担/参与的科研课题与研究成果95-96
- 个人简历96
【相似文献】
中国期刊全文数据库 前10条
1 姚泽清,王衍波;江苏省国民经济主要指标的主成分分析[J];运筹与管理;2003年03期
2 尉雪波,张辉;灰色主成分分析及其应用[J];山东财政学院学报;2004年05期
3 夏国恩;金炜东;张葛祥;;非线性主成分分析新方法[J];统计与决策;2006年05期
4 马翔宇;陈志华;邹飒枫;赵力;;基于主成分分析的音乐事件相关脑电变化研究[J];现代生物医学进展;2009年03期
5 张维铭;陈文兴;;运用主成分分析制定服装标准的探讨[J];浙江丝绸工学院学报;1986年02期
6 李永福,孙文爽 ,王元平;广义主成分分析[J];云南大学学报(自然科学版);1988年01期
7 王宏健,,易柱新;主成分方法用于聚类分析[J];经济数学;1996年01期
8 李汶华;城市综合实力增长的比较[J];数理统计与管理;2000年01期
9 高长元,丁雪伟,綦良群;高新技术产品的主成分分析评价法[J];哈尔滨理工大学学报;2000年01期
10 DelValls T A ,丁海燕;确定海洋沉积物中污染物来源的方法——多变量主成分分析方法[J];海洋地质动态;2003年11期
中国重要会议论文全文数据库 前10条
1 么彩莲;魏宁;;关于主成分分析的改进方法探讨[A];中国现场统计研究会第12届学术年会论文集[C];2005年
2 陈明星;缪柏其;靳韬;;利率影响因素的主成分分析与因子分析[A];中国现场统计研究会第12届学术年会论文集[C];2005年
3 孙晓东;胡劲松;焦s
本文编号:856432
本文链接:https://www.wllwen.com/yixuelunwen/liuxingb/856432.html