当前位置:主页 > 医学论文 > 畜牧兽医论文 >

整合功能注释的全基因组选择和关联分析方法研究

发布时间:2020-10-12 20:20
   全基因组关联分析(Genome-wide Association Study,GWAS)和基因组选择(Genomic Selection,GS)已经成为研究人类和动植物复杂性状遗传基础和表型预测的重要手段。随着测序技术的发展,人类和动植物基因组的功能注释不断完善,在GWAS和GS中整合SNP的生物学注释信息将有利于复杂性状遗传基础的挖掘和表型预测准确性的提高。因此,本研究基于混合线性模型分别在GWAS和GS中提出整合功能注释信息的策略和模型,建立了整合先验生物学信息的全基因组最佳线性无偏预测(incorporate Prior biological information in Genomic Best Linear Unbiased Predictor,pGBLUP),整合多种注释信息鉴定性状相关组织(Scalable Multiple Annotation integration for trait-Relevant Tissue identification and usage,SMART)两种遗传学分析方法。本研究的主要研究结果如下:(1)建立了pGBLUP模型和方法,通过模拟比较pGBLUP和常见基因组选择方法(GBLUP和Bayes R),发现pGBLUP使用生物学注释信息可以提高基因组选择功效,但对注释信息的功能也存在依耐性;(2)pGBLUP模型可以被拓展后用于遗传力富集分析,可以准确估计不同功能注释信息的遗传力富集程度,作为衡量不同功能注释对性状性状影响的指标;(3)pGBLUP应用于奶水牛基因组选择,奶牛产奶性状QTL区域对奶水牛产奶性状具有中等较弱的遗传力富集(fe5),在奶水牛样本量有限(412头)的情况下,整合奶牛产奶性状QTL信息以提高奶水牛产奶性状基因组选择的效果不明显,但pGBLUP为将来在小群体中整合先验生物学功能信息进行基因组选择提供了策略;(4)pGBLUP应用于仔猪八字腿功能注释信息遗传力富集分析,鉴定出了在仔猪八字腿遗传力上高度富集(fe100)的7条KEGG信号通路,其中信号通路KEGG_MTOR_SIGNALING_PATHWAY控制肌肉发育,值得进一步深入研究;(5)建立了SMART模型和方法,通过模拟测试以及真实数据应用,发现SMART整合多种注释信息有利于准确鉴定性状相关组织(细胞),且利用SMART鉴定的性状相关组织构建的SNP权重,可以提高SNP-set检验功效,在GWAS中鉴定出更多的位点;(6)SMART应用于人类复杂性状和基因组功能注释公共数据:根据性状与组织相关性,将43个性状分层聚为5大类,从整合多组学功能注释信息角度发现性状之间的相关关系;同时对不同组蛋白注释信息效应的估计,发现组蛋白H3K4me1和H3K4me3具有较大效应,适合进行基因组功能预测。总之,本研究建立了整合功能注释信息的基因组选择方法pGBLUP和全基因组关联分析方法SMART,通过整合功能注释信息提高基因组选择和全基因组关联分析的功效,将为复杂性状遗传基础的研究和表型预测提供新的思路和工具,有助于通过整合和利用动物多组学功能注释信息加快动物的遗传选育。
【学位单位】:华中农业大学
【学位级别】:博士
【学位年份】:2018
【中图分类】:S813.1
【部分图文】:

致因,模拟结果,片段,箱线图


2-1. 在 仅放置致因片段 SNP 的模拟结果。(A)在不同模拟设置下,在测试数据集中预和模拟值相关系数;(B)在不同模拟设置下,相较于 GBLUP 预测的准确性,pGBLUP ayesR 提高的百分比;(C)在 20 次重复下,遗传力富集程度的估计,红色虚线代表模拟的值(从左到右,依次为 51,21,11,6 和 2)。在(A)和(C)箱线图中的黑实线代表中。ig. 2-1. Simulation results when only the SNP in the causal segments are set in . (A) Torrelation between the predicted values and the simulated values in the testing data set usihree methods in different simulating settings. (B)The percentage of predictive accuracy gain GBLUP and BayesR compared with GBLUP methods in different simulating settings. (C) Fof enrichment (fe) estimations using all individuals with 20 replicates, the red dash linepresent the true values (from left to right: 51, 21, 11, 6 and 2). The black solid lines in (A) aC) represent the median values of the estimations.

致因,片段,模拟结果


在真实数据中,由于生物学注释信息不太完善,理想的生物学注释信息很难,在公式 2.1 的Z 中容易引入一些跟性状不直接相关的 SNP,即噪音信号。通算机模拟设置在真实致因片段(注释区域)有 10 个时,控制Z 包含 10 个片段NP,但这些 SNP 中一部分来自于致因片段和一部分来自于非致因片段(详见本法 2.5.2)。当Z 中全部的 SNP 都来自于非致因片段,pGBLUP 和 GBLUP 具有的预测效果,都差于 BayesR;当Z 中全部的 SNP 都来自于致因片段,pGBLU有最好的预测效果,优于 GBLUP 和 BayesR;当Z 中的 SNP 即来自于致因片来自于非致因片段时,pGBLUP 的效果介于 GBLUP 和 BayesR 之间,但是当于非致因片段的 SNP 比例低于 10%时,pGBLUP 依然具有最好的预测效果(-2 A)。pGBLUP 的Z 中存在噪音信号时,功能区域遗传力的富集程度也会下降噪音信号越大时,即Z 中来自于非致因片段的 SNP 比例越高时,功能区域遗传富集程度越小,pGBLUP 预测效果也越差(图 2-2)。

水牛,基因组,遗传力,奶水牛


华中农业大学 2018 届博士研究生学位(毕业)论文3.2 奶水牛产奶性状基因组选择的探讨3.2.1 奶水牛产奶性状在先验生物学功能注释区域存在遗传力富集从奶牛产奶相关性状的 QTL 区域,筛选出 1279 个位于这些 QTL 区域的 SN放在Z 中(详见本章方法 2.6),根据 pGBLUP 模型首先估计先验生物学信息的遗力富集程度(图 2-3A)。当 6 个产奶性状的 DEBV 作为表型时,在生物学注释区的 SNP 上未观察到显著的遗传力富集;当 EBV 作为表型时,注释区域的 SNP 在乳脂量(Fat Yield,FY270), 总产奶量(total Mild Yield,MY270),产乳蛋白量(ProteYield,PY270)存在遗传力富集(fe>2,图 2-3 A)。
【相似文献】

相关期刊论文 前10条

1 解涛,梁卫平,丁达夫;后基因组时代的基因组功能注释[J];生物化学与生物物理进展;2000年02期

2 王行国;;基因功能注释——后基因组时代面临的挑战[J];世界科技研究与发展;2007年01期

3 刘雷;赵欢;冉茂中;杜保国;邵镪钎;伍希来;贾白慧;查英;;罗勒花和叶的转录组数据组装及基因功能注释[J];中草药;2017年17期

4 马雅楠;孙平平;魏雅卓;陆林英;崔颖;马志强;;改进的系统发育谱算法在蛋白质功能注释中的应用[J];生物信息学;2009年01期

5 刘淑娟;朱艳;张晓军;李欣;郭慧娟;畅志坚;乔麟轶;;小麦基因组学研究进展[J];山西农业科学;2018年03期

6 黄萍;孙平平;马雅楠;张爽;藏露;欧阳玉梅;马志强;;系统发育谱构建方法研究[J];生物信息学;2009年01期

7 黄浩;陈临溪;;生物信息学方法在预测蛋白质相互作用中的应用[J];中国医学创新;2010年36期

8 朱新宇;基因功能注释的计算方法[J];生物技术;2003年06期

9 张德楠;王亚东;;新一代高通量测序Chip-seq数据正规化方法研究[J];智能计算机与应用;2014年06期

10 燕永亮;杨剑;窦岳坦;平淑珍;王忆平;金奇;林敏;;Pseudomonas stutzeri A1501基因组结构及功能注释[J];中国农业科技导报;2008年05期


相关博士学位论文 前10条

1 郝兴杰;整合功能注释的全基因组选择和关联分析方法研究[D];华中农业大学;2018年

2 卢益甄;前列腺癌遗传多态性风险位点功能及机制分析[D];浙江大学;2016年

3 汪佳宏;基于自由词的文献挖掘方法在人基因功能及分子网络研究的应用[D];南方医科大学;2015年

4 郭云雁;猪肌纤维和眼肌面积性状全基因组关联研究[D];山西农业大学;2015年

5 赵琛;基于高通量RNA测序的大鼠转录组注释研究[D];华东师范大学;2013年

6 郭杏莉;基于网络模型的基因相关预测问题算法研究[D];西安电子科技大学;2013年

7 刘伟;小鼠肝实质细胞蛋白质表达谱构建及功能分析[D];中国人民解放军军事医学科学院;2012年

8 魏霖;肝癌重要基因群及调控网络的整合生物学研究[D];复旦大学;2011年

9 易欣;综合分析组学数据以构建植物基因结构注释与功能解析平台[D];中国农业大学;2016年

10 王为;基于公共数据库棉花非冗余性EST-SSR新标记的开发、评价及应用[D];中国农业科学院;2012年


相关硕士学位论文 前10条

1 蔺光岭;基于SVM和蛋白功能注释的蛋白质相互作用关系预测方法研究[D];吉林大学;2017年

2 刘聪聪;猪全基因组变异位点功能注释程序开发[D];华中农业大学;2017年

3 孙平平;基于改进K-means聚类的系统发育谱方法在基因功能注释中的应用[D];东北师范大学;2008年

4 张健;文昌鱼假定蛋白功能注释及数据库构建[D];山东理工大学;2011年

5 叶非;基于集群环境的三种蛋白质GO功能注释方法的实现[D];华中科技大学;2008年

6 吴浩宇;基于Hadoop的同源性搜索GO功能注释平台的研究[D];南京农业大学;2013年

7 刘巧英;中黑盲蝽发育过程中基因表达差异及功能的初步分析[D];河南科技学院;2016年

8 李金城;基于多组学数据对长链非编码RNAs的功能注释[D];宁波大学;2017年

9 方婷;家蚕特有基因的鉴定、表达模式分析及功能初探[D];西南大学;2010年

10 汪佳宏;基于自由词的基因功能注释和分子网络构建[D];南方医科大学;2012年



本文编号:2838227

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/dongwuyixue/2838227.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户98606***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com