一种利用机器学习策略提高复杂性状全基因组预测准确性及计算效率的方法开发
发布时间:2022-01-06 05:21
全基因组预测是一种利用覆盖全基因组标记预测未知表型的新兴技术,随着测序技术的不断更新和日趋成熟,基因分型成本越来越低,全基因组预测逐渐被推广应用于动植物选育以及人类疾病风险评分。统计方法在全基因组预测中起到至关重要的作用,直接影响表型的预测效果。基于亲缘关系的BLUP系列方法计算过程简单,具有较高的计算效率,但由于其模型假设粗糙,预测准确性往往不理想;基于标记效应的Bayes系列方法模型假设灵活,具有较高的预测准确性,但由于其复杂的参数求解过程,计算效率低下。如何兼顾高准确性及高计算效率的双重优势,开发出快、准、稳的全基因组预测方法,是当前的研究热点和难点。本研究提出了一种利用机器学习过程提高复杂性状预测准确性及计算效率的方法,名为“Kinship Adjusted Multiple Loci Best Linear Unbaised Prediction”,简称KAML。其机器学习过程整合了交叉验证、多元回归、网格搜索和二分法迭代等算法,能够准确地将大效应标记纳入线性混合模型作为协变量,并同时将标记贡献进行权重,构建性状特异的基因组亲缘关系矩阵作为随机效应项。通过模型选择过程自动切换...
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:博士
【部分图文】:
全基因组选择在实际应用的一般流程
华中农业大学2020届博士研究生学位(毕业)论文20图2KAML算法设计图Fig.2TheroadmapofdesignedalgorithminKAMLKAML预测过程主要分为两部分:一部分为参数优化过程,此过程中将群体中具有表型的个体划分为训练群和验证群,利用训练群体表型记录训练模型,采用不同参数组合预测验证群,并计算预测值与真实表型的相关程度作为模型选择指标,查找和确定验证群预测准确性最高的参数组合;另一部分为预测未知表型个体,直接采用第一部分确定的相关参数,利用所有有表型个体预测未知表型个体。2.5.1协变量QTNs的选择全基因组关联分析(GWAS)作为一种目标性状候选基因筛选的有力工具,其关联分析结果能够对目标性状的遗传构建提供一定的先验信息,因此KAML在性状的GWAS结果基础上进行参数优化。首先,将群体中具有表型的个体分为N个组,随机组合其中N-1个组进行全基因组关联分析,重复N次,即得到N组关联分析结果。对每组关联分析结果进行LD筛选(LDclumping),在设定LD阈值下(默认设置为0.3),从最显著的标记依次筛选,挑取前n个标记(默认设置为20),N组关联分析结果筛选之后得到N组长度为n的候选QTNs向量。对所有组的候选QTNs进行计数,在计数过程中需要注意的是,当不同交叉验证组的QTNs相关系数大于设定阈值时,以p值小的QTN计数,采用Bootstrap思想,挑取计数大于等于N*0.9的QTNs作为priorQTNs。其次,将priorQTNs在每个交叉验证组
华中农业大学2020届博士研究生学位(毕业)论文22图3KAML算法中网格搜索及二分法迭代优化权重关系矩阵图示Fig.3IllustrationofiterationprocessesofgridsearchandbisectionalgorithmtooptimizeweightedkinshipmatrixinKAML网格搜索全部计算完成后,比较所有交点的值大小,确定最大值(图中实线相交的空心红圈),然后启动二分法迭代过程,为了避免最大值附近存在多个峰的情况,我们在最大值组合, 两边各取一个值|,A,取值规则如下:a|,Ab∈~()=}#2,#+#-2 ;=1}#G-+#2,#+#-2 ;1<<}#G-+#2,3##G-2 ;= 这样构成了4个新的组合,如图3中虚线所示,虚线交点为二分法选取的新组合,计算4个交点预测准确性之后,同样取最大值点(图中虚线相交的空心红圈),以同样的方式进入下一次二分法迭代,如此实现二分法迭代过程,当迭代次数达到设置的最大迭代次数(默认设置为10)或者当前后两次迭代预测值的差值小于设定精度(默认设置为0.0001),二分法自动迭代结束。最后,比较最终确定的组合下预测准确性与GBLUP准确性:当最佳组合下的预测准确性小于GBLUP时,直接放弃最佳组合,采用标准的Kinship,此时最终模型可为Ks或pQ+Ks;当最佳组合下的预测准确性大于GBLUP时,采用最佳组合,此时最终模型可为Kw或pQ+Kw。需要注意的是,在交叉验证过程中,训练群预测验证群的预测准确性在KAML中存在两种情况:当性状定义为2水平0、1的表型时,KMAL自动转换利用AUROC指标计算预测准确性;当性状非2水平0、1的表型时,KAML采用Pearson相关系数计算预测准确性。
【参考文献】:
期刊论文
[1]基因组选择在猪杂交育种中的应用[J]. 杨岸奇,陈斌,冉茂良,杨广民,曾诚. 遗传. 2020(02)
本文编号:3571814
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:博士
【部分图文】:
全基因组选择在实际应用的一般流程
华中农业大学2020届博士研究生学位(毕业)论文20图2KAML算法设计图Fig.2TheroadmapofdesignedalgorithminKAMLKAML预测过程主要分为两部分:一部分为参数优化过程,此过程中将群体中具有表型的个体划分为训练群和验证群,利用训练群体表型记录训练模型,采用不同参数组合预测验证群,并计算预测值与真实表型的相关程度作为模型选择指标,查找和确定验证群预测准确性最高的参数组合;另一部分为预测未知表型个体,直接采用第一部分确定的相关参数,利用所有有表型个体预测未知表型个体。2.5.1协变量QTNs的选择全基因组关联分析(GWAS)作为一种目标性状候选基因筛选的有力工具,其关联分析结果能够对目标性状的遗传构建提供一定的先验信息,因此KAML在性状的GWAS结果基础上进行参数优化。首先,将群体中具有表型的个体分为N个组,随机组合其中N-1个组进行全基因组关联分析,重复N次,即得到N组关联分析结果。对每组关联分析结果进行LD筛选(LDclumping),在设定LD阈值下(默认设置为0.3),从最显著的标记依次筛选,挑取前n个标记(默认设置为20),N组关联分析结果筛选之后得到N组长度为n的候选QTNs向量。对所有组的候选QTNs进行计数,在计数过程中需要注意的是,当不同交叉验证组的QTNs相关系数大于设定阈值时,以p值小的QTN计数,采用Bootstrap思想,挑取计数大于等于N*0.9的QTNs作为priorQTNs。其次,将priorQTNs在每个交叉验证组
华中农业大学2020届博士研究生学位(毕业)论文22图3KAML算法中网格搜索及二分法迭代优化权重关系矩阵图示Fig.3IllustrationofiterationprocessesofgridsearchandbisectionalgorithmtooptimizeweightedkinshipmatrixinKAML网格搜索全部计算完成后,比较所有交点的值大小,确定最大值(图中实线相交的空心红圈),然后启动二分法迭代过程,为了避免最大值附近存在多个峰的情况,我们在最大值组合, 两边各取一个值|,A,取值规则如下:a|,Ab∈~()=}#2,#+#-2 ;=1}#G-+#2,#+#-2 ;1<<}#G-+#2,3##G-2 ;= 这样构成了4个新的组合,如图3中虚线所示,虚线交点为二分法选取的新组合,计算4个交点预测准确性之后,同样取最大值点(图中虚线相交的空心红圈),以同样的方式进入下一次二分法迭代,如此实现二分法迭代过程,当迭代次数达到设置的最大迭代次数(默认设置为10)或者当前后两次迭代预测值的差值小于设定精度(默认设置为0.0001),二分法自动迭代结束。最后,比较最终确定的组合下预测准确性与GBLUP准确性:当最佳组合下的预测准确性小于GBLUP时,直接放弃最佳组合,采用标准的Kinship,此时最终模型可为Ks或pQ+Ks;当最佳组合下的预测准确性大于GBLUP时,采用最佳组合,此时最终模型可为Kw或pQ+Kw。需要注意的是,在交叉验证过程中,训练群预测验证群的预测准确性在KAML中存在两种情况:当性状定义为2水平0、1的表型时,KMAL自动转换利用AUROC指标计算预测准确性;当性状非2水平0、1的表型时,KAML采用Pearson相关系数计算预测准确性。
【参考文献】:
期刊论文
[1]基因组选择在猪杂交育种中的应用[J]. 杨岸奇,陈斌,冉茂良,杨广民,曾诚. 遗传. 2020(02)
本文编号:3571814
本文链接:https://www.wllwen.com/projectlw/swxlw/3571814.html
教材专著