深度学习探究城市环境微生物的抗生素抗性及其影响因素
发布时间:2021-04-07 03:56
城市环境微生物群落与人类活动密切相关,是抗生素耐药基因(Antibiotic Resistance Gene,ARG)的主要载体。ARG的存在使得微生物能够承受更高的抗生素浓度,ARG还可能转移到致病菌并威胁全球公共卫生。故ARG的准确识别对于应对抗生素耐药性挑战就极为重要。然而,目前广泛使用的ARG识别方法大多是基于序列比对的方法,在识别非同源的ARG上存在不足。在本文中,我们基于深度学习理论,整合了卷积神经网络(CNN)和长短记忆神经网络(LSTM),提出了一种不依赖序列比对的方法。此方法不仅在测试集上有着出色的表现:准确率为0.9883,查全率为0.8565,AUC值为0.9664。相较常用的方法,我们在ARG的种类识别方面,提高了9.5%的分类精度,同时提高了16.4%的查全率,可以识别更多的非同源ARG。利用此方法,我们从Metagenomics and Metadesign of Subways and Urban Biomes(MetaSUB)联盟收集的3,741个宏基因组样本中,鉴定出457,777个ARG,并将其分为35个抗性类别。其中,超过80%的样品含有对于β-内...
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
环境通过多种途径向人类微生物传播抗性基因[11]
华东师范大学硕士学位论文61.4本文的研究内容及意义本论文内容主要分为三个部分(如流程图所示):ARG数据整合;ARG识别模型构建;ARG识别结果分析。在第二章论述了ARG数据的整合和识别模型的建立:首先我们整合了现有ARG数据库构成了模型训练数据集,并利用词向量训练工具对ARG数据进行编码表示;然后基于深度学习理论,我们整合了卷积神经网络架构(CNN)和长短记忆神经网络架构(LSTM),再融入DIAMOND工具,建立了新的ARG分类识别模型。此模型在准确率,查全率,分类精度等方面均有提高。第三章论述了我们利用建立的模型,对于MetaSUB联盟数据进行ARG识别,从所有的MetaSUB样本中提取了457,777个ARG,并将其分为35个抗性类别。之后又结合各类数据综合分析,比较了不同国家间ARG识别的比例和抗性种类多样性,并尝试探讨了不同国家的环境ARG丰度与抗生素消费、各种地区发展指标以及人体肠道微生物抗性之间的关系(图1-2)。图1-2本文研究的流程示意图
华东师范大学硕士学位论文13图2-2深度神经网络常见结构示意图深度神经网络虽然可以赋予模型更强的能力,但是对于高维数据:比如本研究中就包括长达1200个碱基的序列数据,如果再乘上神经网络每一层的核数,将会得到数量巨大的参数量。过于庞大的参数量使得训练变得极为复杂,而且也增加了时间成本,却并不一定能够让模型更优秀。于是首先在图像识别领域就催生出了卷积神经网络。卷积神经网络简单说来就是将传统的全连接层的连结方式变成了利用设定大小的filter以类似窗口滑动的方式对上一层的数据进行变换,从而达到提取信息的目的。而其中filter的存在使得上一层的数据可以实现参数共享,这就极大程度地降低了深度神经网络可能带来的爆炸参数量。参数的减少却不影响模型性能,这是事半功倍的选择,而且减少参数可以有效地避免过拟合问题。同时,由于filter的参数共享,还会带来对于数据的“平移不变性”,这让模型就更加稳健了。,=(∑∑∑,,,+,++1=01=01=0)
本文编号:3122750
【文章来源】:华东师范大学上海市 211工程院校 985工程院校 教育部直属院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
环境通过多种途径向人类微生物传播抗性基因[11]
华东师范大学硕士学位论文61.4本文的研究内容及意义本论文内容主要分为三个部分(如流程图所示):ARG数据整合;ARG识别模型构建;ARG识别结果分析。在第二章论述了ARG数据的整合和识别模型的建立:首先我们整合了现有ARG数据库构成了模型训练数据集,并利用词向量训练工具对ARG数据进行编码表示;然后基于深度学习理论,我们整合了卷积神经网络架构(CNN)和长短记忆神经网络架构(LSTM),再融入DIAMOND工具,建立了新的ARG分类识别模型。此模型在准确率,查全率,分类精度等方面均有提高。第三章论述了我们利用建立的模型,对于MetaSUB联盟数据进行ARG识别,从所有的MetaSUB样本中提取了457,777个ARG,并将其分为35个抗性类别。之后又结合各类数据综合分析,比较了不同国家间ARG识别的比例和抗性种类多样性,并尝试探讨了不同国家的环境ARG丰度与抗生素消费、各种地区发展指标以及人体肠道微生物抗性之间的关系(图1-2)。图1-2本文研究的流程示意图
华东师范大学硕士学位论文13图2-2深度神经网络常见结构示意图深度神经网络虽然可以赋予模型更强的能力,但是对于高维数据:比如本研究中就包括长达1200个碱基的序列数据,如果再乘上神经网络每一层的核数,将会得到数量巨大的参数量。过于庞大的参数量使得训练变得极为复杂,而且也增加了时间成本,却并不一定能够让模型更优秀。于是首先在图像识别领域就催生出了卷积神经网络。卷积神经网络简单说来就是将传统的全连接层的连结方式变成了利用设定大小的filter以类似窗口滑动的方式对上一层的数据进行变换,从而达到提取信息的目的。而其中filter的存在使得上一层的数据可以实现参数共享,这就极大程度地降低了深度神经网络可能带来的爆炸参数量。参数的减少却不影响模型性能,这是事半功倍的选择,而且减少参数可以有效地避免过拟合问题。同时,由于filter的参数共享,还会带来对于数据的“平移不变性”,这让模型就更加稳健了。,=(∑∑∑,,,+,++1=01=01=0)
本文编号:3122750
本文链接:https://www.wllwen.com/shoufeilunwen/mpalunwen/3122750.html
最近更新
教材专著