当前位置:主页 > 医学论文 > 精神病论文 >

一种全基因组关联性分析新流程及其在孤独症的应用

发布时间:2020-11-13 08:44
   全基因组关联性分析(genome-wide association study, GWAS)是对大量分析样本建立病例-对照关系,并在全基因组水平上进行分析扫描,最终找出与某一特定表型(疾病)紧密相关的基因标记。GWAS对于复杂的多基因疾病研究有很好的效果。然而由于GWAS本身的特点,决定了一个好的GWAS研究需要大量的训练样本及有效的建模方法。这些都属于计算生物学中的未圆满解决的问题。我们在本论文中提出了一种全新的全基因组关联性分析流程,该流程可以整合异源SNP芯片数据,减小收集大样本的难度,并通过应用合适的机器学习算法,能够以极高的准确率找到于与某一特定表型相关的基因谱系。 孤独症是一种典型的多基因遗传病,即具有众多基因共同控制,且单个基因的作用较小的特点,非常适用于GWAS研究。目前孤独症的机理尚未确定,因此我们将本流程运用于孤独症关联谱系的分析。经分析837个样本(400个训练集,437个验证集)、全基因组500 568个SNP位点,我们得到了一个由随机森林建模而成的孤独症显著关联谱系,共包括37个SNP位点。该谱系无论是在训练时还是独立验证时都有非常高的准确率。而且跟该谱系相关的一个SNP位点、三个基因以及七个染色体区段(cytoband)都有报道证实其与孤独症发病密切相关。总之,我们建立的GWAS流程可以整合异源数据,并且可以以极高的准确率找到与某一特定表型相关的基因组谱系,对该种表性的生物学研究有很好的指导作用,具有广阔的应用前景。
【学位单位】:清华大学
【学位级别】:硕士
【学位年份】:2010
【中图分类】:R749.9
【部分图文】:

基因型,示例,数据,位点


26图3.1 基因型数据示例3.2.1 质量控制标准选取以下标准分别对 case 和 control 样本的训练集进行 SNP 位点质量控制:(1)基因型分型率(genotype call rate)大于 90%,即去除那些基因型分型率低的 SNP 位点,防止过多的空值影响结果。(2)哈迪-温伯格检验 p 值(HWE p value)大于 10-7。HWE 即哈迪-温伯格平衡(Hardy-Weinberg equilibrium)。哈迪-温伯格定律为:在一个无穷大的随机交配的群体中,且没有进化的压力下,基因频率和基因型频率将保持平衡。如:p2表示 AA 的基因型的频率,2pq 表示 AB 基因型的频率 q2表示 BB 基因型的频率。其中 p 是等位基因 A 的频率;q 是等位基因 B 的频率,则基因型频率之和应等于 1,即 p2+ 2pq + q2= 1。HWE 检验即检测该 SNP 位点的基因型频率是否复合该平衡,认为 p value 小于 10-7的 SNP 位点不符合并去除该位点。

密度图,密度图,基因型频率,位点


位基因频率十分相似,而与 D 组 case 有显著不同,这才是我们真正想要的与孤独症有关联 SNP 位点。图3.2 假阳性及真阳性SNP位点基因型频率密度图

视图,全基因组,关联分析,视图


基因型关联分析pvalue的全基因组视图
【参考文献】

相关期刊论文 前1条

1 罗星光,江开达;儿童孤独症分子遗传学研究进展[J];国外医学.遗传学分册;2000年05期



本文编号:2881999

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/jsb/2881999.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户07451***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com