当前位置:主页 > 科技论文 > 自动化论文 >

基于深度学习的宏基因组序列分类方法研究

发布时间:2020-04-08 23:32
【摘要】:基因测序技术的高速发展使得测序的成本指数下降,下一代测序技术被广泛应用。同一时间能对复杂环境中不同微生物的基因组进行测序,从而获得大量的微生物基因数据。宏基因组学通过16S rRNA扩增技术直接获得微生物的全部DNA序列,通过这些序列信息分析出整个微生物群落物种的丰度,再根据丰度信息得到群落的特征和功能。16S rRNA测序产生的片段同时具有同源性和特异性,同源性可以用来追踪物种的起源,特异性可以鉴别出不同的物种。已有研究表明人体肠道菌群与疾病和代谢息息相关,宏基因组分析已成为研究微生物群落的重要的一种辅助方法。宏基因组研究的重要一步是鉴定物种的类别,已有许多的方法被提出用来解决此问题,但是这些方法的分类正确率仍有很大的改进空间。针对宏基因组分类问题,本文提出了混合深度卷积神经网络和全连接神经网络的分类模型。该模型在卷积神经网络阶段实现数据特征降维,在后一个全连接阶段学习各种特征之间的非线性关系。用RDP和Greengenes数据库中的三组数据集分别训练和测试模型,数据集中包含细菌和古菌的16S序列以及真菌ITS序列。训练好的模型能够根据给定的基因序列预测已存在数据库的分类标签,在无参考数据库的情况下使用GPU实现多条查询序列并行分配。本文对以下几方面内容展开了研究:(1)宏基因组数据分类特征提取。使用两种不同的特征提取方式,一种是基于k-mer,以k个碱基划分整条序列,组成特征空间。另一种是基于对齐的,这种方式先把不等长的序列通过全局比对的方式处理成长度一样的序列。基因序列是字符串信息,在训练之前进行编码,编码过程中考虑了序列实际的生物学意义。(2)针对宏基因组序列分类预测问题,设计了基于深度学习的混合深度神经网络模型。深度神经网络模型逐层学习基因数据中的非线性特征,进而利用这些层次化的特征数据来对宏基因组序列进行分类预测。并对训练好的模型进行了保存和可视化。(3)把两个数据库中的三个数据集处理成一致的表达格式。在每个数据集用了三种不同的方法进行训练测试,其中RDP分类器分类使用的是默认参数。对于本文设计的模型,通过多组实验,确定模型的参数。用精确率、召回率、F1-score等分类评估指标评估了三种不同方法的分类性能。
【图文】:

序列,示例,数据,数据库


有些数据库的数据已用工具做了对齐,相应的也会提供对齐序列。RTS16 和Warcup2 数据集不提供对齐的序列,所以这两个数据库的数据先用 ESPRIT-TREE 做对齐。序列对齐后的数据如图3.2 所示,从图中可以看出,做对齐后序列被很多“-”填充了。图3.2 对齐后的数据示例

始数,数据库,中原


Greengenesv13.8数据库中原始数据
【学位授予单位】:江西理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q811.4;TP18

【参考文献】

相关期刊论文 前1条

1 滕国栋;陈敏亮;;全基因组测序技术的发展和应用[J];中国美容医学;2013年04期



本文编号:2619965

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2619965.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户6fc33***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com