基于深度学习的跨物种M6A修饰位点预测研究
发布时间:2020-09-05 11:41
RNA转录后修饰是对转录后的RNA进行加工的过程,在许多生命过程中发挥着重要作用。目前鉴定到的已有150余种转录后修饰,其中N6-甲基腺苷(N6-methyladenosine,m~6A)是RNA转录后修饰中最为常见的一类,其广泛地存在于哺乳动物,酿酒酵母和拟南芥等物种中。M~6A是一种可逆修饰,其调节着RNA的定位、转录、剪接和稳定性。此外其与肿瘤、肥胖症等疾病具有关联。因此,从RNA序列中精准地鉴定出m~6A修饰位点,对基础研究和药物开发有着重大意义,是一项非常有意义的工作。传统的基于生化实验来识别m~6A修饰位点的方法不仅耗时长、成本高,而且规模较小。近年来,研究人员开发出了多个基于机器学习的m~6A修饰位点预测器,但是其都是面向单一物种且预测精度有限。因此,设计一种高精度的跨物种m~6A修饰位点预测模型,是非常有必要的。本文对m~6A修饰位点预测问题进行了研究,主要工作如下:(1)对基于RNA序列的m~6A修饰位点预测问题进行研究,提出一种新型的RNA序列特征提取方法,即改进的核苷酸组成成分(Enhanced Nucleic Acid Composition,ENAC)。该方法利用滑动窗口的思想,分别计算滑动窗口中每种核苷酸出现的频率。此方法融合了序列的局部信息和全局信息,能够更好地表达修饰位点周围RNA序列的特征。基于此特征提取方法,构建了随机森林预测模型。实验结果表明,与常见的RNA序列特征提取方法相比,该方法能有效提高N6-甲基腺苷位点的预测性能。(2)将深度学习应用于m~6A修饰位点预测,提出了基于单向门控循环单元(Unidirectional GRU-based RNN predictor,UGRU)和双向门控循环单元(Bidirectional Gated Recurrent Unit,BGRU)的m~6A修饰位点预测模型。实验结果表明,BGRU预测模型在多物种上具有更好的预测结果。(3)通过逻辑回归的方法,融合基于深度学习的BGRU预测模型和基于ENAC方法的随机森林预测模型,构建了一个高精度的跨物种m~6A修饰位点预测模型,BERMP方法。实验结果表明,在多个物种上,本文提出的BERMP方法在相同独立测试集上的预测性能都要优于现有的单物种m~6A修饰位点预测方法。(4)对提出的BERMP方法提供了在线的预测服务平台,以便相关研究人员免费地使用(http://www.bioinfogo.org/bermp/)。
【学位单位】:青岛大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:Q811.4;TP18
【部分图文】:
用于分类和回归任务,其关键思想是将低维空间中的线性不可分样本通过核函数映射到高维空间中,使得样本在高维空间中线性可分,并找到一个最优的超平面将两类样本分隔开。对于给定训练样本 ; y ∈ { },如图2.1所示,超平面H记为g t,如果 t ,则g ,否则g 。图2.1 支持向量机示意图
青岛大学硕士学位论文10图2.2 决策树构建流程图决策树的构造过程一般分为3个部分,分别是特征选择、决策树生成和决策树裁剪。特征选择是从众多的特征中选择一个最优特征作为当前节点的分裂标准,根据选择最优特征的不同,构建决策树的算法又分为ID3,C4.5,CART等方法。以ID3算法为例,其根据信息增益值选择最优分裂属性。信息增益定义如下:Gain D a t t 公式 2-(6)Ent D th 公式 2-(7)其中,训练样本集用D表示
青岛大学硕士学位论文11图2.3 随机森林构建流程图随机森林采用了集成算法的思想,是一种高精度的分类器。由于两个随机性的引入,使得随机森林不容易陷入过拟合并具有一定的抗噪能力,能有效地处理有缺失的样本数据。随机森林能够有效地处理高维数据,并且不用做特征选择,在训练过程中,可以检测特征之间的互相影响,得到特征的重要性。因其良好的分类效果,在生物信息学领域有着广泛的应用[20, 21]。2.2 常用深度学习方法2.2.1 多层感知机多层感知机[34]是由感知机推广而来,最主要的特点是有多个神经元层,因此也叫深度神经网络(Deep Neural Networks, DNN)。第一层称为输入层,最后一层称为输出层,中间的层称之为隐含层。多层感知机中并没有规定隐含层的数量,同时对每层的神经元个数也没有限制。因此可以根据实际需求选择合适的隐层层数和每层神经元个数。最简单的多层感知机是三层结构
【学位单位】:青岛大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:Q811.4;TP18
【部分图文】:
用于分类和回归任务,其关键思想是将低维空间中的线性不可分样本通过核函数映射到高维空间中,使得样本在高维空间中线性可分,并找到一个最优的超平面将两类样本分隔开。对于给定训练样本 ; y ∈ { },如图2.1所示,超平面H记为g t,如果 t ,则g ,否则g 。图2.1 支持向量机示意图
青岛大学硕士学位论文10图2.2 决策树构建流程图决策树的构造过程一般分为3个部分,分别是特征选择、决策树生成和决策树裁剪。特征选择是从众多的特征中选择一个最优特征作为当前节点的分裂标准,根据选择最优特征的不同,构建决策树的算法又分为ID3,C4.5,CART等方法。以ID3算法为例,其根据信息增益值选择最优分裂属性。信息增益定义如下:Gain D a t t 公式 2-(6)Ent D th 公式 2-(7)其中,训练样本集用D表示
青岛大学硕士学位论文11图2.3 随机森林构建流程图随机森林采用了集成算法的思想,是一种高精度的分类器。由于两个随机性的引入,使得随机森林不容易陷入过拟合并具有一定的抗噪能力,能有效地处理有缺失的样本数据。随机森林能够有效地处理高维数据,并且不用做特征选择,在训练过程中,可以检测特征之间的互相影响,得到特征的重要性。因其良好的分类效果,在生物信息学领域有着广泛的应用[20, 21]。2.2 常用深度学习方法2.2.1 多层感知机多层感知机[34]是由感知机推广而来,最主要的特点是有多个神经元层,因此也叫深度神经网络(Deep Neural Networks, DNN)。第一层称为输入层,最后一层称为输出层,中间的层称之为隐含层。多层感知机中并没有规定隐含层的数量,同时对每层的神经元个数也没有限制。因此可以根据实际需求选择合适的隐层层数和每层神经元个数。最简单的多层感知机是三层结构
【相似文献】
相关期刊论文 前10条
1 刘文博;梁盛楠;秦喜文;董小刚;王纯杰;;基于迭代随机森林算法的糖尿病预测[J];长春工业大学学报;2019年06期
2 贾璐;李辉;陈大雷;;基于改进随机森林的城市河流水生态健康评价研究[J];海河水利;2019年06期
3 盛晓欣;田翔华;周毅;;基于随机森林癫痫患者脑电数据的分析研究[J];中国数字医学;2020年01期
4 秦喜文;郭宇;董小刚;郭佳静;袁迪;;基于局部均值分解和迭代随机森林的脑电分类[J];吉林大学学报(信息科学版);2020年01期
5 沈智勇;苏
本文编号:2812977
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2812977.html