基于深度学习的蛋白质相互作用预测研究

发布时间：2020-08-19 19:10

【摘要】：蛋白质是生命活动的物质基础,在细胞生命活动中扮演着十分重要的角色。绝大部分蛋白质通过与其他的蛋白质发生互作从而执行多样的生物学功能。蛋白质相互作用是蛋白质组学研究的热点和难点之一,正确地识别蛋白质相互作用不仅有助于更全面地理解活细胞的生物分子生理过程,而且对于新药物的研发和疾病机制的探索等方面都具有重要的意义。基于传统湿实验识别蛋白质相互作用的技术存在费时,覆盖度有限且价格昂贵的缺点。近年来,研究者已经研发了一些利用机器学习和蛋白质氨基酸序列识别蛋白质相互作用的方法。但是这些方法普遍存在以下不足:1)蛋白质氨基酸序列向量化编码方法无法充分提取互作特征;2)忽视多种氨基酸序列编码和分类器间的互补信息,即仅使用单个编码算法和单个分类器预测蛋白质互作;3)蛋白质非相互作用数据集缺失或包含有大量噪声。为此,本文开展了如下工作:(1)针对蛋白质序列特征编码算法不能充分刻画氨基酸序列的连续和不连续区域中残基间的互作的问题,本文提出了一种基于局部三联体特征编码算法(LCTD:Local Conjoint Triad Description)和深度神经网络的方法—DNN-LCTD。局部三联体特征编码算法(LCTD)集成了三联体特征编码算法(CT:Conjoint Triad Descriptor)和局部特征编码算法(LD:Local Descriptor)的优点,因此它能更好的描述氨基酸序列连续和不连续区域隐藏的互作信息。深度神经网络(DNNs)不仅可以从原始数据中自动学习稳定的特征,而且还能描述和刻画数据的层次表示。DNN-LCTD在酵母菌蛋白质相互作用数据集上取得了优越的性能且仅耗时718秒,其中准确率(accuracy)达到93.12%,精度(precision)达到93.75%,AUC(Area Under Curve)达到97.92%。这些实验结果显示,DNN-LCTD能够高效且准确地预测蛋白质相互作用,同时还进一步证明了LCTD编码算法的优越性。(2)针对现有蛋白质相互作用预测方法忽略了多种氨基酸序列编码和分类器间互补信息的问题,本文提出了一种基于集成深度学习和集成蛋白质序列编码算法的分类方法—EnsDNN。EnsDNN首先分别利用自协方差特征编码算法(AC:auto covariance descriptor),LD,多尺度连续不连续局部特征编码算法(MCD:Multi-scale Continuous and Discontinuous local descriptor)编码氨基酸序列间的互作模式。然后基于每个特征编码算法训练不同配置的DNNs。最后为了利用AC,LD,MCD编码算法和不同DNNs间的互补信息,EnsDNN利用一个集成预测器自动地为每个DNNs分类器分配权重,并进行蛋白质互作预测。在酵母菌蛋白质数据集上,EnsDNN取得了优越的性能,准确率(accuracy)达到95.29%,召回率(recall)达到95.12%,精度(precision)达到95.45%。(3)针对蛋白质非相互作用数据集缺失或包含有大量噪声的问题。本文提出两种生成高质量非相互作用数据集的方法—NIP-SS和NIP-RW。NIP-SS和NIP-RW分别基于序列相似度和图上的随机游走的方法选择蛋白质非相互作用对。NIP-SS首先计算互作数据集中各蛋白质间的序列相似度,然后选取前m个最不相似的蛋白质对作为非相互作用对,同时控制已选择非互作用对的蛋白质的度分布与正数据集中的蛋白质度分布相似。NIP-RW则在蛋白质相互作用网络上进行k步随机游走,最后从更新后的邻接矩阵中选择无连接的蛋白质对作为非相互作用的数据。考虑到效率问题,本文使用AC编码氨基酸序列且使用深度神经网络作为分类器模型。大量的实验结果表明相较于其他已经存在的蛋白质非相互作用数据集生成策略,NIP-SS和NIP-RW可以生成更高质量的非相互作用对。实验结果还表明基于NIP-SS和NIP-RW策略生成的非相互作用数据集的DNNs模型的预测性能将更加准确和健壮。
【学位授予单位】：西南大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：Q51;TP18
【图文】：

示意图,三联体,示意图

图 2-1 三联体示意图。序列上的数字是按照氨基酸极性和体积分组的类别。fi是出现蛋白质序列中的三联体类型 vi的频率，F 是所有 fi频率向量的集合。其中 di的值被归一化在[0,1]范围内。fi是出现在蛋白质序列中的三联体类型 vi的频率。因此，每个蛋白质序列将会产生 343 维的向量。2.1.2 自协方差特征编码算法一般情况下，蛋白质氨基酸间的相互作用主要可以分为以下 4 类：1）静电互作；2）疏水性互作；3）氢键互作；4）空间互作。目前，研究者发现这些互作模式可以通过氨基酸的 7 种物理化学性质来反映。这 7 类氨基酸性质主要包括：1疏水性；2）亲水性；3）侧链残基体积；4）极性；5）极化率；6）侧链电荷数7）残基溶剂可及表面积。表 2-2 中显示了该 7 中理化性质的参数。由于这 7 类理化性质量纲差距较大，会影响模型的准确性和效率。鉴于此，本文使用 Z-sco标准化方对这 7 类理化性质的参数进行归一化，方程如下：~' i ,j jijjP PPS (2

区段,氨基酸,氨基酸序列,序列

图 2-2 假想的蛋白质序列划分为 10 个区段（A-J）。区段 A-D 和 E-F 是分别将序列平均分为4 个和 2 个相等的区域获得。G 表示序列中的 50%，H，I 和 J 分贝表示序列前后中各 75%。然后将完整的氨基酸序列分为 10 个区段，如图 2-2 所示。对于产生的 10 个区段中每一段，计算三个特征描述符：氨基酸组成（Compositioin），氨基酸间的转化（Transition），氨基酸的分布（Distribution）从而提取序列的特征信息。C 表示每类氨基酸所占的比率，T 代表从一种氨基酸转换为另一种氨基酸类型的频率，D表示每类氨基酸在区段氨基酸序列的分布位置，主要测量 7 类氨基酸中每类氨基酸的总量的 1%，25%，50%，75%，100%在区段序列的各位置的分布情况。然后，根据给定的氨基酸的类别，把区段氨基酸序列替换为数字。例如，对于蛋白质序列 “VCCPPVCVVCPPVCVPVPPCCV” 将会被替换为“0112201001220102022110”，如图 2-3 所示。该蛋白质氨基酸序列中含有 8 个“0”，7 个“1”和 7 个“2”。针对于此段氨基酸序列，这三类氨基酸的组成即 C 分别为8×100％/（8 + 7 + 7）= 36.36％，7×100％/（8 + 7 + 7）= 31.82％，和 6×100％/（8 + 7 + 7）= 31.82％。该序列中包含“0”到“1”或“1”到“0”的转换有 7 个，且这些转换的频率是（7/21）×100％= 33.33％。类似地，“0”到“2”或“2”到“0”的转换以及

氨基酸序列,区段序列,氨基酸,维度

图 2-3 假想的一条用于计算蛋白质组成（C），转换（T），分布（D）的氨基酸区段序列。信息分别为（9.09％，13.64％，45.45％，63.64％，95.45％）和（18.18％，22.73％，54.55％，72.73％，86.36％）。最后，对于每个区的段氨基酸序列，用同样的方式计算三个描述符（C，T，D）并拼接为 63 维的特征向量，C 的特征维度为 7，T 的特征维度为 21（77×6/2），D 的特征维度为 35（7×5）。然后将 10 个不同区段的所有特征向量连接形成 630维的向量。2.1.4 多尺度连续不连续局部特征编码算法多尺度连续不连续局部特征编码算法（MCD）最早是有 You 等人[55]在 2014年提出，主要是解决 CT，LD，AC 等特征编码算法不能充分挖掘氨基酸连续不连续区域的互作信息。MCD 方法是对 LD 方法的一种改进。MCD 首先将整条氨基酸序列平均分成几个区域段，之后使用二进制编码机制构建不同长度的氨基酸区域段。例如图 2-4 中所示的含有 26 个残基的氨基酸序列“ACCLLACCAAALCCALLCACCCALCA”首先被平均分成 5 段，用 S1，S2，S3，S4和 S5表示。

【参考文献】