当前位置:主页 > 理工论文 > 生物学论文 >

基于机器学习的宏基因组叠连群分箱研究

发布时间:2024-03-02 12:36
  宏基因组学可以直接从环境样本中提取微生物的DNA,已成为研究微生物的重要方法之一。叠连群是宏基因组学的基本研究对象之一,叠连群分箱可以提高潜在微生物基因组的完整度,为微生物研究奠定数据基础。针对当前的叠连群分箱方法中准确率有待提高、运行耗时过长等问题,论文提出了一种基于流形学习和K-Means聚类的叠连群分箱方法。主要研究内容如下:(1)基于梯度提升的叠连群特征工程针对叠连群序列数据常用特征对分箱准确率影响程度不同的问题,论文使用梯度提升模型对常用的特征进行了评估和选择。首先,基于Py Feat方法提取了叠连群序列数据Z曲线、GC含量、ATGC比率、累积偏斜、k-mer等特征;其次,基于极度梯度提升树模型计算所有特征分量的重要度;第三,扩展了极度梯度提升树模型的应用范围,得到面向多分量特征的极度梯度提升树模型,计算出叠连群特征重要度;最后,按照重要度倒排序叠连群特征,筛选出重要度最大的叠连群分箱特征。在叠连群标准数据集Strain Mock上计算得到的对叠连群分箱重要度最大的特征是4-mer。(2)基于流形学习和K-Means的叠连群分箱方法针对叠连群数据维度较高,导致难以处理的问题,...

【文章页数】:65 页

【学位级别】:硕士

【部分图文】:

图4-2叠连群数据使用流形嵌入UMAP的降维结果

图4-2叠连群数据使用流形嵌入UMAP的降维结果

第四章基于流形学习和K-Means的叠连群分箱方法33说明了使用流形嵌入UMAP对叠连群数据进行降维,可以为分箱数的估计提供先验,同时为分箱方法提供有效的分类特征,提高分箱方法计算性能。在特征提取和预处理部分得到叠连群的特征X后,在本节中对预处理后的结果进行流形学习非线性降维。通....


图5-1StrainMock数据集在PCA下的结

图5-1StrainMock数据集在PCA下的结

空间下的结果。对于分箱方法的实验,首先对StrainMock和SpeciesMock两个数据集进行了流形嵌入,同时对比同样的数据在PCA和t-SNE降维下的结果,说明流形嵌入的有效性和本文选择降维方法的优势。使用这两个叠连群标准数据集进行测试,分别使用常见的分箱方法和本文提出的分....


图5-2StrainMock数据集在t-SNE下的结

图5-2StrainMock数据集在t-SNE下的结

第五章叠连群分箱实验与分析43上位置,最大的一簇菌株在上部撕裂成了两个小的部分,左边的小部分与另外一个菌株的叠连群交在一起,右边的小部分被掺入了另一菌株的几个叠连群样本点。(a)t-SNE(2)(b)t-SNE(3)图5-2StrainMock数据集在t-SNE下的结果(括号里代....


图5-3StrainMock数据集在UMAP下的

图5-3StrainMock数据集在UMAP下的

第五章叠连群分箱实验与分析43上位置,最大的一簇菌株在上部撕裂成了两个小的部分,左边的小部分与另外一个菌株的叠连群交在一起,右边的小部分被掺入了另一菌株的几个叠连群样本点。(a)t-SNE(2)(b)t-SNE(3)图5-2StrainMock数据集在t-SNE下的结果(括号里代....



本文编号:3916867

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3916867.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8b9e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com