基于深度学习的lncRNA识别和功能注释及与疾病关系研究
发布时间:2020-06-01 06:51
【摘要】:在真核生物转录组中,只有大约2%的序列可以被翻译为蛋白质,多达70%的人类基因组均被转录成了非编码RNA,而且复杂程度越高的生物中,非编码转录本的比例越高,因此非编码转录本的作用逐渐引起广泛关注。特别的,在非编码RNA中,长链非编码RNA(long non-coding RNA,lncRNA)的研究成为近年来的研究热点。LncRNA是一类长度大于200核苷酸的非编码转录本。LncRNA参与很多重要的细胞过程,因此某些转录本的改变可能导致细胞生命活动的剧烈变化,从而导致某些特定的疾病。越来越多的证据表明,lncRNA在癌症的发生和发展中发挥作用,在癌症细胞中的lncRNA表达谱和正常细胞中的有显著差异,而且不同时期的癌症细胞中lncRNA表达谱也不同。因此,深入了解lncRNA的作用方式和调控目标,并理解lncRNA在癌症等疾病中的作用是一个非常重要的研究方向。而目前,从转录组数据中识别lncRNA并了解特定lncRNA的功能,理解lncRNA在癌症中的作用,仍然是一项巨大的挑战。另一方面,机器学习的研究飞速发展,机器学习已经逐渐成为人类学习和推理的有效途径。深度学习是机器学习的一个分支,是当今最流行的机器学习研究方法之一。深度学习可以通过分析大量复杂数据,找到这些数据之间的潜在关系,从数据中逐层抽取多种特征。深度学习的计算非常复杂,在处理复杂数据时,耗时长且需要占用较大内存,而CPU、GPU等硬件性能的提高促进了深度学习的广泛使用,到目前为止,深度学习逐渐被应用于图像处理、语音识别等领域,对这些领域的研究起到了重要的作用。深度学习的方法同样应用到了生物医学领域,例如在识别不同的功能元件和位点、以及医学影像特征提取等问题中。目前已经提出了很多基于深度学习的方法,这些方法往往具有较高的准确率。因此深度学习的应用对生物医学领域的研究具有重要意义,是传统研究方法的一种突破。随着高通量RNA测序技术(High-throughput RNA sequencing technology)的快速发展,转录组数据得到了快速累积。为采用深度学习方法建立lncRNA智能识别系统提供了重要的数据基础。本文基于深度学习方法,从转录本中识别lncRNA,构建了lnc2Catlas数据库,量化lncRNA和癌症之间的关联程度,进而通过构建LIVE数据库,探索了有实验验证的lncRNA和癌症之间的结合、调控相互作用网络。研究内容主要围绕以下几个方面展开:首先,基于深度学习和机器学习的lncRNA识别算法。通过对相关算法的回顾比较,我们发现,这些算法普遍需要保守性等相关的先验知识,需要花费大量时间计算人工选择的特征,且将序列切分计算,容易给机器学习或深度学习模型引入噪声或丢失信息,影响模型学习的特征,造成准确率低等问题。我们对卷积神经网络和循环神经网络这两种常用的深度学习模型进行了深入的了解,探究了两种网络对数据的数学操作。我们根据序列数据特点,用基于卷积神经网络的DeepSea模型提取序列的表观特征,使用循环神经网络提取序列特征,基于序列特征和表观特征,可以从测试集中识别lncRNA和编码蛋白的RNA,AUC面积达到0.96。实验结果表明,本文提出的模型具有较高的准确率和泛化能力。在lncRNA识别的工作基础上,本研究进一步探究lncRNA在癌症的发生和发展中发挥作用的方式。目前研究lncRNA和癌症之间关系的方式有实验探究和计算预测两种方式。经过实验验证的lncRNA和癌症的关联关系非常少,而通过计算方式预测的lncRNA和癌症之间的关系主要有通过机器学习算法模型和整合lncRNA-miRNA和miRNA-癌症相互作用。我们通过SNP、蛋白和基因将lncRNA和癌症关联起来,使用RNAsnp、Global Score、WGCNA三种方法,分别评估SNP引起的lncRNA二级结构的改变、lncRNA和蛋白的相互作用以及共表达网络,量化lncRNA和相应的癌症之间的关联程度。基于上述数据,构建Lnc2Catlas数据库,便于用户查询和lncRNA可能相关的癌症,并为进一步的实验验证提供候选lncRNA。最后,为了给相关研究者提供支持,我们开发了用于探究lncRNA和癌症关系的数据库。与早期的从实验验证和计算预测研究中提取候选lncRNA的数据库不同,目前已有的数据库着眼于lncRNA的特定功能作用,但是文献中包含的潜在的lncRNA-癌症相互作用网络没有被完全揭示出来。因此,我们构建了LIVE数据库,在PubMed数据库中检索相关的文献,并构建分词系统,对文献摘要进行预处理,抽取物种、实验类型、lncRNA等关键词,并根据关键词对文献分类,详细标注文献中经过实验验证的lncRNA和癌症的相互作用。基于上述手工标注的lncRNA和癌症之间的相互作用关系,我们构建了LIVE(LncRNA Interaction Validated Encyclopedia)数据库。LIVE数据库将这些经过验证的相互关系被分为三类网络,分别是结合相互作用网络、调控网络和疾病关联网络。通过对这三个网络的组合,我们进一步了解lncRNA相互作用网络中包含的不同类型的功能调控元件和相互作用。综上所述,本文的工作围绕lncRNA的识别、功能注释及与疾病关系研究展开,提出了基于混合模型的lncRNA的深度学习识别算法,只使用序列识别lncRNA;构建了Lnc2Catlas数据库,量化lncRNA和癌症的关联程度;构建LIVE数据库,提供手工标注的lncRNA和癌症的关联关系以及完整的lncRNA-癌症相互作用网络,有助于进一步揭示lncRNA和癌症之间的潜在关系和探究lncRNA在癌症治疗中的作用。
【图文】:
位于核质中[7]。然而在对小鼠的 lncRNA 的研究表明,大量 RNA 在胚胎干细胞分化和大脑中特异性表达,且表现出精确的亚细胞定位,说明 lncRNA 的表达受到精准的调控[14]。0.2 lncRNA 的功能如图 0.1 所示,上游非编码启动子(黄色)的转录可通过抑制 RNA 聚合酶 II的募集或诱导染色质重构,对下游基因(蓝色)的表达产生影响。反义转录本(紫色)能够与重叠的下游基因转录本(蓝色)结合,并通过剪接阻断剪接位点的识别,引起转录本的选择性剪接。lncRNA 和反义转录本的结合可以在 Dicer 酶的条件下产生内源性 siRNA。非编码转录本(绿色)与特定的蛋白结合,,可以调节蛋白的活性,或作为一种结构成分,形成更大的 RNA -蛋白复合物,或改变蛋白在细胞中的定位。lncRNA (红色)可被加工成短片段 RNA,如 miRNA、piRNA 和其他特征不太明显的小转录本(图片来源:https://www.biosyn.com/tew/what-are-lncrnas-and-lincrnas.aspx)。
第一章 基于深度学习的 lncRNA 识别算法1.1 深度学习研究背景1.1.1 卷积神经网络卷积神经网络(Convolutional Neural Network, CNN)是神经网络的一种,具有同时从多种类型的数据中学习复杂、高维、非线性映射的能力,尤其是对二维图像的处理,因此常用在图像识别等领域。卷积神经网络的基本结构由输入层、卷积层、池化层、全连接层和输出层构成。深度卷积网络模型的特征是顺序交替的卷积层和池化层,它们提取不同空间尺度上的序列特征。在一般的卷积神经网络模型中,每个卷积层都对应一个池化层,最后使用几层全连接层对最后一层池化层的输出进行降维处理,并根据需要得到固定维度的特征作为输出。常见的卷积神经网络模型如图 1.1 所示。
【学位授予单位】:军事科学院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R363
【图文】:
位于核质中[7]。然而在对小鼠的 lncRNA 的研究表明,大量 RNA 在胚胎干细胞分化和大脑中特异性表达,且表现出精确的亚细胞定位,说明 lncRNA 的表达受到精准的调控[14]。0.2 lncRNA 的功能如图 0.1 所示,上游非编码启动子(黄色)的转录可通过抑制 RNA 聚合酶 II的募集或诱导染色质重构,对下游基因(蓝色)的表达产生影响。反义转录本(紫色)能够与重叠的下游基因转录本(蓝色)结合,并通过剪接阻断剪接位点的识别,引起转录本的选择性剪接。lncRNA 和反义转录本的结合可以在 Dicer 酶的条件下产生内源性 siRNA。非编码转录本(绿色)与特定的蛋白结合,,可以调节蛋白的活性,或作为一种结构成分,形成更大的 RNA -蛋白复合物,或改变蛋白在细胞中的定位。lncRNA (红色)可被加工成短片段 RNA,如 miRNA、piRNA 和其他特征不太明显的小转录本(图片来源:https://www.biosyn.com/tew/what-are-lncrnas-and-lincrnas.aspx)。
第一章 基于深度学习的 lncRNA 识别算法1.1 深度学习研究背景1.1.1 卷积神经网络卷积神经网络(Convolutional Neural Network, CNN)是神经网络的一种,具有同时从多种类型的数据中学习复杂、高维、非线性映射的能力,尤其是对二维图像的处理,因此常用在图像识别等领域。卷积神经网络的基本结构由输入层、卷积层、池化层、全连接层和输出层构成。深度卷积网络模型的特征是顺序交替的卷积层和池化层,它们提取不同空间尺度上的序列特征。在一般的卷积神经网络模型中,每个卷积层都对应一个池化层,最后使用几层全连接层对最后一层池化层的输出进行降维处理,并根据需要得到固定维度的特征作为输出。常见的卷积神经网络模型如图 1.1 所示。
【学位授予单位】:军事科学院
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:R363
【相似文献】
相关期刊论文 前10条
1 桑园园;杨承健;韩志君;;LncRNA与心血管疾病的研究进展[J];临床与病理杂志;2016年10期
2 马骧;欧阳尧明;景在平;周建;;lncRNA在血管疾病中的作用机制研究进展[J];中国普通外科杂志;2016年12期
3 刘慧;王德莹;孙海珠;邱晓红;;子宫内膜异位症中LncRNA的研究进展[J];中国优生与遗传杂志;2017年01期
4 陈伟;戴伟钢;张常华;何裕隆;;LncRNA在胃癌中的表达及其预后价值[J];消化肿瘤杂志(电子版);2016年04期
5 颜晗;谭丹;谢攀;刘昭前;李曦;;多种lncRNA可影响黑色素瘤的发生和发展[J];中南大学学报(医学版);2017年02期
6 汪翔;吴强;李庆中;李维平;;LncRNA在恶性脑胶质瘤中的研究进展[J];中华神经外科疾病研究杂志;2017年01期
7 王祖森;沈h牖
本文编号:2691108
本文链接:https://www.wllwen.com/yixuelunwen/jichuyixue/2691108.html