基于熵的关于人类数量性状位点定位的统计方法研究

发布时间：2019-11-22 23:33

【摘要】： 定位与各种性状和疾病相关的基因是人类遗传最重要的研究领域之一,其中一个主要的研究是检测与数量性状有关的位点,即数量性状位点(QTL)。QTL的定位可以基于群体分布的上极端样本和下极端样本的标记基因或单体型频率差,即选择基因型的方法实现,但这种方法并不是一致最有效的。而增大极端样本中标记基因或单体型频率的差有可能提高QTL定位的精确性。申农(Shannon)熵,一个典型的频率的非线性函数,可以增大极端样本中标记基因频率的差。本学位论文基于熵理论,提出了利用群体的极端样本和稠密分子标记高解析度定位QTL的两阶段分析过程。在第一阶段,本学位论文扩充了对疾病基因进行全基因组关联分析的统计量T_(PE)到数量性状,得到了一个对QTL进行关联分析的统计量T_(QPE)。统计量T_(QPE)比较了群体分布中上极端样本和下极端样本的标记单体型频率熵。为了调查统计量的可行性和有效性,通过计算机模拟,本学位论文考察了统计量T_(QPE)的分布和Ⅰ型错误率,以及在不同参数和群体抽样策略下的检验功效。Ⅰ型错误率接近设定值α=0.05,在多数情形下,检验功效达到90%以上。T_(QPE)的检验功效随着样本大小和遗传率的增大而增大,当样本选择阈值更严格时,检验功效也越大,而加性遗传模型时的检验功效总体比显性遗传模型和隐性遗传模型时的检验功效要高。最后,一个基于血管紧张肽转化酶(ACE)基因的10个SNPs单体型频率的模拟研究证实了该统计量的可行性。优良的结果表明统计量T_(QPE)在QTL关联分析中具有可行性和有效性。假定在第一阶段的关联分析中得到阳性结果,获得一个包含QTL的较大的基因组区域,进一步的精细定位可以将这一大的区域缩小到更小的基因组区域。因此,在第二阶段,本学位论文提出了两个使用极端样本和高稠密标记图谱的连锁不平衡(LD)指数lx_1和lx_2精细定位QTL。指数lx_1比较了群体的标记熵与上极端样本和下极端样本的标记熵之间的差异,它适用于群体的标记基因频率已知的情形,而指数lx_2比较了由上极端样本和下极端样本构成的混合群体的标记熵和标记条件熵之间的差异,它适用于群体的标记基因频率未知而极端群体的标记基因频率已知的情形。本学位论文从分析和计算机模拟的角度考察了两个指数的性质,同时将它们与常用的LD指数进行了比较分析。指数lx_1和lx_2都是标记位点与QTL之间LD的函数,而且在(a)QTL基因A与标记位点等位基因M之间在原始代基因A首次出现在被研究群体时完全关联,(b)QTL基因与标记位点基因没有发生新的突变,和(c)被研究群体很大的三个假定下,指数lx_1和lx_2不依赖群体的标记基因频率。最后基于血管紧张肽转化酶(ACE)基因的10个SNPs单体型频率的模拟研究也证实了指数lx_2的优良性质。
【学位授予单位】：中南大学
【学位级别】：博士
【学位授予年份】：2008
【分类号】：R311

【引证文献】