基于多组学数据利用机器学习预测玉米开花期基因
发布时间:2021-10-14 16:24
开花期是植物从营养生长到生殖生长转变的关键时期,与作物产量息息相关。目前对于开花期的研究,在模式植物拟南芥(Arabidopsis thaliana)中已经鉴定出了众多的基因,多条调控途径也被清楚解析。然而,作为主要粮食作物的玉米,其开花期研究相对滞后,鉴定到的基因较少,影响了玉米产量潜力的进一步开发。由于经典的群体定位的方式费力耗时,因此,本研究拟基于多组学数据利用机器学习的方法批量挖掘玉米开花期候选基因,并利用EMS突变体进行功能验证,其结果如下:1、收集整理了用于机器学习建模的训练数据集和预测数据集,前者包含39个功能已知的开花期相关基因和39个非开花期相关基因,预测数据集是功能信息未知的16564个基因样本。两者的特征数据为转录组、翻译组和蛋白互作组的多维组学生物大数据。2、基于训练数据集构建了6个算法模型,经评估后选取了预测效率较高的Adaboost、Logistic Regression和SVM三个算法模型用于预测开花期基因,3者在整合的多组学数据集上的AUC评分分别为0.86±0.10、0.90±0.03、0.86±0.09;评估算法在不同数据基础上的表现发现整合的多组学...
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
留一法划分数据
基于多组学数据利用机器学习预测玉米开花期基因19由表1可以看出不同算法模型表现不一致,同一算法模型在不同组学数据上训练的效果也不一样。就不同算法的比较可以看出,最简单的逻辑回归模型LogisticRegressionCV在各个组学数据上都表现很好,而强有力且复杂的支持向量机模型SVM和集成模型XGBClassifier分别在转录组学数据和蛋白互作数据PPI(ProteinProteinInteractome)上表现较差,但可以看到的是SVM在蛋白互作数据上表现最好。如图2.1所示,就算法在不同组学数据基础上的表现来看,在PPI数据基础上的较差,翻译组数据又优于转录组数据,但三者整合的数据表现最好。PPI数据表现较差可能是与PPI数据不饱和、检测到的基因较少相关,我们比较了转录组、翻译组和蛋白互作组原始数据中检测到的基因数,发现蛋白互作组数据中检测到的最少,这很可能导致了蛋白互作的不饱和,如图2.2所示。图2.1不同数据基础上的算法表现通过比较各个算法在不同数据基础上的综合表现可以发现,算法在蛋白互作组数据PPI上表现最差,在整合的多组学数据上表现最好。Fig.2.1Algorithmperformancebasedondifferentdata.Bycomparingthecomprehensiveperformanceofeachalgorithmondifferentdata,itcanbefoundthateachalgorithmperformstheworstonthePPI,andperformsbestontheintegratedmulti-omicsdata.
基于多组学数据利用机器学习预测玉米开花期基因23机器学习模型求解特征的权重值有关,一般权重值越偏离0,该特征对机器学习模型的影响也越大,从而体现出重要性。我们首先评估转录组各个特征对逻辑回归算法的贡献性,由图4A所示,来源于玉米B73V5时期的叶基、花序、V3时期的叶尖、胚、播种后6天的初生根等组织的RNA-seq数据对机器学习算法模型影响较大。然后,我们又评估了翻译组各个特征的重要性,由图4B可知,来源于玉米B73的1毫米雌穗、V3时期叶尖、播种后6天的初生根等组织对算法模型影响较大。令人意外的是,无论转录组数据还是翻译组数据,茎尖分生组织SAM对算法模型的影响都较校特征重要性的结果不仅可以评估各个特征对算法模型的贡献性,也可以指导后续的实验分析。而转录组和翻译组数据中各个不同组织对算法模型的重要性的生物学意义,还需要进一步探索。图4转录组和翻译组数据的特征重要性评估A:转录组数据特征重要性分析;B:翻译组数据特征重要性分析。横轴表示特征权重,纵轴表示不同的组织。Fig.4Theevaluationresultsofthefeatureimportanceofthetranscriptomeandtranslationdata.A:Featuresimportanceanalysisoftranscriptomedata,B:Featuresimportanceanalysisoftranscriptomedata.Thehorizontalaxisrepresentsfeatureweights,andtheverticalaxisrepresentsdifferentbiologicaltissues.
【参考文献】:
期刊论文
[1]利用重测序的水稻染色体片段代换系定位控制稻米淀粉黏滞性谱QTL[J]. 张昌泉,胡冰,朱孔志,张华,冷亚麟,汤述翥,顾铭洪,刘巧泉. 中国水稻科学. 2013(01)
[2]作物QTL定位常用作图群体[J]. 蒋洪蔚,刘春燕,高运来,李灿东,张闻博,胡国华,陈庆山. 生物技术通报. 2008(S1)
[3]利用单片段代换系定位水稻抽穗期QTL[J]. 何风华,席章营,曾瑞珍,Akshay Talukdar,张桂权. 中国农业科学. 2005(08)
[4]玉米SSR遗传图谱的构建及产量性状基因定位[J]. 向道权,曹海河,曹永国,杨俊品,黄烈健,王守才,戴景瑞. 遗传学报. 2001(08)
[5]玉米RFLP遗传图谱的构建及矮生基因定位[J]. 曹永国,王国英,王守才,魏艳玲,卢江,谢友菊,戴景瑞. 科学通报. 1999(20)
本文编号:3436469
【文章来源】:华中农业大学湖北省 211工程院校 教育部直属院校
【文章页数】:83 页
【学位级别】:硕士
【部分图文】:
留一法划分数据
基于多组学数据利用机器学习预测玉米开花期基因19由表1可以看出不同算法模型表现不一致,同一算法模型在不同组学数据上训练的效果也不一样。就不同算法的比较可以看出,最简单的逻辑回归模型LogisticRegressionCV在各个组学数据上都表现很好,而强有力且复杂的支持向量机模型SVM和集成模型XGBClassifier分别在转录组学数据和蛋白互作数据PPI(ProteinProteinInteractome)上表现较差,但可以看到的是SVM在蛋白互作数据上表现最好。如图2.1所示,就算法在不同组学数据基础上的表现来看,在PPI数据基础上的较差,翻译组数据又优于转录组数据,但三者整合的数据表现最好。PPI数据表现较差可能是与PPI数据不饱和、检测到的基因较少相关,我们比较了转录组、翻译组和蛋白互作组原始数据中检测到的基因数,发现蛋白互作组数据中检测到的最少,这很可能导致了蛋白互作的不饱和,如图2.2所示。图2.1不同数据基础上的算法表现通过比较各个算法在不同数据基础上的综合表现可以发现,算法在蛋白互作组数据PPI上表现最差,在整合的多组学数据上表现最好。Fig.2.1Algorithmperformancebasedondifferentdata.Bycomparingthecomprehensiveperformanceofeachalgorithmondifferentdata,itcanbefoundthateachalgorithmperformstheworstonthePPI,andperformsbestontheintegratedmulti-omicsdata.
基于多组学数据利用机器学习预测玉米开花期基因23机器学习模型求解特征的权重值有关,一般权重值越偏离0,该特征对机器学习模型的影响也越大,从而体现出重要性。我们首先评估转录组各个特征对逻辑回归算法的贡献性,由图4A所示,来源于玉米B73V5时期的叶基、花序、V3时期的叶尖、胚、播种后6天的初生根等组织的RNA-seq数据对机器学习算法模型影响较大。然后,我们又评估了翻译组各个特征的重要性,由图4B可知,来源于玉米B73的1毫米雌穗、V3时期叶尖、播种后6天的初生根等组织对算法模型影响较大。令人意外的是,无论转录组数据还是翻译组数据,茎尖分生组织SAM对算法模型的影响都较校特征重要性的结果不仅可以评估各个特征对算法模型的贡献性,也可以指导后续的实验分析。而转录组和翻译组数据中各个不同组织对算法模型的重要性的生物学意义,还需要进一步探索。图4转录组和翻译组数据的特征重要性评估A:转录组数据特征重要性分析;B:翻译组数据特征重要性分析。横轴表示特征权重,纵轴表示不同的组织。Fig.4Theevaluationresultsofthefeatureimportanceofthetranscriptomeandtranslationdata.A:Featuresimportanceanalysisoftranscriptomedata,B:Featuresimportanceanalysisoftranscriptomedata.Thehorizontalaxisrepresentsfeatureweights,andtheverticalaxisrepresentsdifferentbiologicaltissues.
【参考文献】:
期刊论文
[1]利用重测序的水稻染色体片段代换系定位控制稻米淀粉黏滞性谱QTL[J]. 张昌泉,胡冰,朱孔志,张华,冷亚麟,汤述翥,顾铭洪,刘巧泉. 中国水稻科学. 2013(01)
[2]作物QTL定位常用作图群体[J]. 蒋洪蔚,刘春燕,高运来,李灿东,张闻博,胡国华,陈庆山. 生物技术通报. 2008(S1)
[3]利用单片段代换系定位水稻抽穗期QTL[J]. 何风华,席章营,曾瑞珍,Akshay Talukdar,张桂权. 中国农业科学. 2005(08)
[4]玉米SSR遗传图谱的构建及产量性状基因定位[J]. 向道权,曹海河,曹永国,杨俊品,黄烈健,王守才,戴景瑞. 遗传学报. 2001(08)
[5]玉米RFLP遗传图谱的构建及矮生基因定位[J]. 曹永国,王国英,王守才,魏艳玲,卢江,谢友菊,戴景瑞. 科学通报. 1999(20)
本文编号:3436469
本文链接:https://www.wllwen.com/nykjlw/nzwlw/3436469.html
最近更新
教材专著