基于RNN及其融合方法的DNA甲基化预测模型研究
发布时间:2021-08-07 23:52
DNA甲基化是表观遗传机制的一种,涉及多种重要的生命活动。研究DNA甲基化在基因表达调控、疾病防治、肿瘤识别等方面具有重要意义。利用实验手段检测DNA甲基化的方法可以获得较高的准确性,但由于成本高,并不能大规模的应用。因此,利用机器学习模型预测DNA甲基化成为实验手段的重要补充。近年来,随着深度学习技术的发展,研究人员开始使用深度学习框架进行DNA甲基化的研究,与传统的机器学习方法相比,深度学习可以更充分地利用现有的甲基化数据库,可以从大量的数据中自动学习到潜在的甲基化特征。目前,DeepCpG、MRCNN等基于深度学习的DNA甲基化预测模型取得了良好的效果,但还存在着难以提取DNA序列时序特征、部分区域性能较差的不足。针对以上问题,本文构建了三种通过局部DNA序列预测DNA甲基化的深度学习模型。相比于现有模型,提升了DNA甲基化的预测性能。具体工作如下:(1)针对于卷积神经网络(Convolutional Neural Networks,CNN)每层内部神经元相互独立,难以有效利用DNA序列时序信息的问题,文本基于循环神经网络(Recurrent Neural Network,RNN...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
DeepCpG模型结构
电子科技大学硕士学位论文16图2-3MRCNN模型结构相比于DeepCpG模型,MRCNN模型只有DNA模块而没有CpG模块,即MRCNN模型只使用了DNA序列模式作为输入。MRCNN的输入是一个以目标CpG位点为中心上下游各200bp长度的DNA序列。在进行MRCNN训练之前,需要对这些DNA序列片段进行one-hot编码,以将原始序列中的碱基A,T,C和G转换为可以输入到网络的矩阵。预处理后,可以为每个目标CpG位点生成400×4大小的矩阵,其中每一行代表一个碱基(A,T,C,G),而各列则组装了整个原始片段。MRCNN模块的第一层是单个卷积层,卷积内核的大小是1×4,主要用于从400×4输入矩阵中提取单个含氮碱基的信息。第一层之后有一个重塑操作,将400×1的输出张量重塑为20×20张量。第二和第三层是传统的卷积和池化层,卷积核的大小为3×3,步长为1×1和3×3。第四、五层都是卷积层,其卷积核大小和步长与第二层相同。最后,将最后一层获得的张量扩展到整个连接层。连接层引入了dropout功能,防止在训练中过度拟合,然后通过输出层预测甲基化水平。选择了均方误差函数作为训练过程中的损失函数,通过最小化均方误差来训练各层滤波器权重。通过多层卷积学习,MRCNN可在单碱基分辨率下实现CpG位点的甲基化预测,并且由于具有连续的损失函数,该方法能够实现连续的甲基化值回归。为了说明模型的性能,田奇等人还将MRCNN与DeepCpG进行了比较。发现MRCNN在只使用DNA序列信息的情况下,依然能够拥有不亚于DeepCpG的预测准确率,这也证实了只使用DNA序列进行甲基化预测的可行性。2.3本文所用的数据集本文模型研究与训练所用的数据为全基因组亚硫酸氢盐测序(wholegenomebisulfitesequencing,WGBS)数据,下载自GEO公共数据库。本文使用了小肠组织(编号GSM983646)、食道组织?
电子科技大学硕士学位论文32增加到130时,模型的分类准确率明显上升,在130到150之间,分类准确率随隐藏层节点数目变化较小,当隐藏层节点数增加到150以上时,分类准确率开始下降。即序列长度400-600bp,隐藏层节点数130-150的区间内,模型可以获得较高的准确率。综合性能和开销等多方面考虑,RNN模型的隐藏层节点数最终设置为130,之后的研究基于400bp长度的DNA序列。3.3实验结果及性能分析3.3.1RNN模型的回归性能分析使用2.3节介绍的数据集对模型进行训练,并统计了RNN模型和MRCNN模型所有测试位点的预测值和真实值之间的绝对误差,并通过统计结果拟合了如图3-9所示的两种模型的误差分布概率密度曲线。其中蓝色实线为RNN模型的误差分布概率密度曲线,绿色虚线为MRCNN模型的误差分布概率密度曲线。从图中可以看出两种模型的误差分布概率密度曲线存在明显的差异,RNN的误差分布概率密度曲线峰值在0左侧,而MRCNN误差分布概率密度曲线峰值在0右侧,这表示RNN模型在回归预测时更容易出现预测值小于实际值的情况,而MRCNN模型预测值和真实值之间的绝对误差为正的情况较多。对于两种模型概率密度曲线的差异,推测主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型对DNA序列进行特征提取时,会对特征矩阵进行重塑,不利于时序特征的提取,但不会对类似于CG含量这样的非时序特征造成影响。而RNN模型,其内部循环单元彼此连接,并在输入序列传递方向上进行递归,使得其更擅长提取序列特征。图3-9误差分布概率密度曲线
【参考文献】:
期刊论文
[1]表观遗传学的作用机制及其与经典遗传学的异同[J]. 惠瑞敏,王小荣,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化与衰老的研究进展[J]. 沈赟,钟远,苗雅. 老年医学与保健. 2018(04)
[3]DNA甲基化检测方法研究进展[J]. 代雅琪,张博洋,朱丽叶,唐小革,许文涛. 农业生物技术学报. 2017(01)
博士论文
[1]多任务学习算法研究[D]. 浦剑.复旦大学 2013
[2]基于特征融合与仿生模式的生物特征识别研究[D]. 徐颖.华南理工大学 2013
硕士论文
[1]组稀疏多任务学习方法及其应用研究[D]. 孙怡.南京邮电大学 2019
[2]基于双通道时空特征深度学习的新生儿疼痛表情识别[D]. 耿惠惠.南京邮电大学 2019
[3]基于阿贝尔复杂度方法的全基因组DNA甲基化的预测[D]. 刘云霞.华中农业大学 2018
[4]DNA甲基化状态在线预测平台的设计与实现[D]. 李承哲.电子科技大学 2016
本文编号:3328777
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:76 页
【学位级别】:硕士
【部分图文】:
DeepCpG模型结构
电子科技大学硕士学位论文16图2-3MRCNN模型结构相比于DeepCpG模型,MRCNN模型只有DNA模块而没有CpG模块,即MRCNN模型只使用了DNA序列模式作为输入。MRCNN的输入是一个以目标CpG位点为中心上下游各200bp长度的DNA序列。在进行MRCNN训练之前,需要对这些DNA序列片段进行one-hot编码,以将原始序列中的碱基A,T,C和G转换为可以输入到网络的矩阵。预处理后,可以为每个目标CpG位点生成400×4大小的矩阵,其中每一行代表一个碱基(A,T,C,G),而各列则组装了整个原始片段。MRCNN模块的第一层是单个卷积层,卷积内核的大小是1×4,主要用于从400×4输入矩阵中提取单个含氮碱基的信息。第一层之后有一个重塑操作,将400×1的输出张量重塑为20×20张量。第二和第三层是传统的卷积和池化层,卷积核的大小为3×3,步长为1×1和3×3。第四、五层都是卷积层,其卷积核大小和步长与第二层相同。最后,将最后一层获得的张量扩展到整个连接层。连接层引入了dropout功能,防止在训练中过度拟合,然后通过输出层预测甲基化水平。选择了均方误差函数作为训练过程中的损失函数,通过最小化均方误差来训练各层滤波器权重。通过多层卷积学习,MRCNN可在单碱基分辨率下实现CpG位点的甲基化预测,并且由于具有连续的损失函数,该方法能够实现连续的甲基化值回归。为了说明模型的性能,田奇等人还将MRCNN与DeepCpG进行了比较。发现MRCNN在只使用DNA序列信息的情况下,依然能够拥有不亚于DeepCpG的预测准确率,这也证实了只使用DNA序列进行甲基化预测的可行性。2.3本文所用的数据集本文模型研究与训练所用的数据为全基因组亚硫酸氢盐测序(wholegenomebisulfitesequencing,WGBS)数据,下载自GEO公共数据库。本文使用了小肠组织(编号GSM983646)、食道组织?
电子科技大学硕士学位论文32增加到130时,模型的分类准确率明显上升,在130到150之间,分类准确率随隐藏层节点数目变化较小,当隐藏层节点数增加到150以上时,分类准确率开始下降。即序列长度400-600bp,隐藏层节点数130-150的区间内,模型可以获得较高的准确率。综合性能和开销等多方面考虑,RNN模型的隐藏层节点数最终设置为130,之后的研究基于400bp长度的DNA序列。3.3实验结果及性能分析3.3.1RNN模型的回归性能分析使用2.3节介绍的数据集对模型进行训练,并统计了RNN模型和MRCNN模型所有测试位点的预测值和真实值之间的绝对误差,并通过统计结果拟合了如图3-9所示的两种模型的误差分布概率密度曲线。其中蓝色实线为RNN模型的误差分布概率密度曲线,绿色虚线为MRCNN模型的误差分布概率密度曲线。从图中可以看出两种模型的误差分布概率密度曲线存在明显的差异,RNN的误差分布概率密度曲线峰值在0左侧,而MRCNN误差分布概率密度曲线峰值在0右侧,这表示RNN模型在回归预测时更容易出现预测值小于实际值的情况,而MRCNN模型预测值和真实值之间的绝对误差为正的情况较多。对于两种模型概率密度曲线的差异,推测主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型对DNA序列进行特征提取时,会对特征矩阵进行重塑,不利于时序特征的提取,但不会对类似于CG含量这样的非时序特征造成影响。而RNN模型,其内部循环单元彼此连接,并在输入序列传递方向上进行递归,使得其更擅长提取序列特征。图3-9误差分布概率密度曲线
【参考文献】:
期刊论文
[1]表观遗传学的作用机制及其与经典遗传学的异同[J]. 惠瑞敏,王小荣,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化与衰老的研究进展[J]. 沈赟,钟远,苗雅. 老年医学与保健. 2018(04)
[3]DNA甲基化检测方法研究进展[J]. 代雅琪,张博洋,朱丽叶,唐小革,许文涛. 农业生物技术学报. 2017(01)
博士论文
[1]多任务学习算法研究[D]. 浦剑.复旦大学 2013
[2]基于特征融合与仿生模式的生物特征识别研究[D]. 徐颖.华南理工大学 2013
硕士论文
[1]组稀疏多任务学习方法及其应用研究[D]. 孙怡.南京邮电大学 2019
[2]基于双通道时空特征深度学习的新生儿疼痛表情识别[D]. 耿惠惠.南京邮电大学 2019
[3]基于阿贝尔复杂度方法的全基因组DNA甲基化的预测[D]. 刘云霞.华中农业大学 2018
[4]DNA甲基化状态在线预测平台的设计与实现[D]. 李承哲.电子科技大学 2016
本文编号:3328777
本文链接:https://www.wllwen.com/projectlw/swxlw/3328777.html