基于K-spaced氨基酸对编码的蛋白质-DNA相互作用位点预测研究
第一章 绪论
1.1 生物信息学概述
21 世纪,随着生物科学技术的迅猛发展,数据资源的极具膨胀,为了方便快捷的管理、存储以及进一步利用繁多的生物数据,一门融合了生物技术和计算机科学技术的新型学科-生物信息学应运而生。 生物信息学是一门较为年轻的交叉学科,最开兴起于上世纪 80 年代,它结合了计算机技术、数学原理以及生物科学等学科,属于一门综合类学科。它的主要目的是对于大量的没有规律的生物学数据进行整理和分析,具体包括,生物数据的存储、再次加工、和分析,目前,大量的研究人员更加着重利用数据挖掘等理论去分析大量的生物数据之间的内容信息,从而对于了解整个人类的生命途径起到关键作用。生物信息学已经经历了 30 多年的时间,在前 10 年中,利用生物学手段测序出众多的数据,在这些数据基础上派生出来的数据库已经达到 500多个。这一切已经构成了生物数据的海洋。但是数据并不等同于信息和知识,但是却是信息和知识的源泉,关键在于我们如何去挖掘它们。与正以指数级增长的生物数据相比,人类知识的增长却是非常缓慢。目前所从事生物信息学的大量的研究人员把注意力主要集中在序列比对、序列分析、基因组、蛋白组、蛋白质结构以及与此密切相关的药物设计方面。序列分析主要是获知 DNA 序列对应的基因序列和基因调控序列。那么序列分析的另一个重点研究内容为基因组中的基因和调控基因序列进行自动识别工作。基因是有四种脱氧核糖核酸(A、C、G、T)按照一定的编码过程形成的双螺旋结构的串,也就是 DNA,这些 DNA 上面包含着生物整个生命活动的控制信息,其中的功能单位可以转录成核糖核苷酸序列(RNA),参与生物体的结构的构建和生命的调控功能。 蛋白质组学的核心内容包括蛋白质组研究体系的建立、进一步研究功能蛋白质组的反应机制。随着基因组学和蛋白质组学的不断深入研究,使得蛋白质序列信息越来越多。要了解他们的功能光知道氨基酸序列是不够的,因此出现蛋白质结构比对和功能预测。
..........
1.2 蛋白质-DNA 相互作用
蛋白质-DNA 相互作用对于生物的生命活动密切相关。随之人类基因组测序工组的完成,相关人员发现,只有很少的一部分,大约 2%的基因是用来编码蛋白质,剩余的基因具体的生物功能还没有完全被解析。因此,基因组学的研究开始兴起,目前大量的科学家着重研究基因的功能网络,这些研究对于了解生物机制也起到了关键的作用,其中一项重要的内容就是研究 DNA 分子与蛋白质的相互作用机制。生物实验研究发现,DNA 分子不仅是遗传物质,能够用来编码蛋白质,还能与特殊作用的蛋白质结合,这样就对于基因的整个调控网络起到了控制作用,主要调控的功能有,转录 RNA,调节基因的表达,可以进行基因修饰,发挥沉默基因作用的功能等[1]。因此,我们发现生物分子之间的相互作用决定了生命活动,揭示了生物生命的本质。由于蛋白质是生物的承载体,DNA 分子又是生命的传递者,这二者之间的相互作用机理也异常的重要,是诸如复制重组DNA 等生命活动的一个基础。这些活动都是在特定的蛋白质参与的情况下发生的,同时又受蛋白质-DNA 相互作用的调控,能够与 DNA 相互作用的蛋白质我们称为 DNA 结合蛋白(DNA-binding proteins)。 在基因的转录调控过程中,DNA 结合蛋白与基因启动子区域进行结合,促进或者阻碍 RNA 聚合酶在启动子区域的作用,从而达到激活或者抑制基因的转录[2]。同时对于 DNA 复制、修复、重组以及修饰(例如,蛋白质翻译后修饰)等生命活动蛋白质与 DNA 的特异性结合也产生至关重要的作用。因此,蛋白质-DNA 相互作用对于生物的遗传和进化都起到了关键性的促进作用。在这个层面上,我们可以看出蛋白质与 DNA 的相互作用是生命活动的基础[3]。那么,对蛋白质-DNA 相互作用的研究也就成为了生物信息学这一学科热点研究内容。
.......
第二章 本文用到的主要研究方法
2.1 基于蛋白质序列信息的特征表示方法
蛋白质的进化信息通过同源性多序列比对,能够反映出一条蛋白质序列各个位置上的氨基酸在物种进化过程中的保守性。在生物信息学发展如此迅速的今天,氨基酸进化信息被广泛的应用,其中位置特异性打分矩阵(PSSM)在许多生物预测问题中被广泛应用,例如,亚细胞定位问题,蛋白质功能位点预测问题;研究表明,利用氨基酸序列进化信息能够显著提高 DNA 位点预问题。目前蛋白质进化信息一般分为两类,一类是通过下载 HSSP 数据库中的谱文件,另一类是通过比对算法实现,目前最为流行的是利用 PSI-BLAST 程序实现位置特异性打分矩阵,它是利用多次迭代搜索的策略,先对一条蛋白质序列扫描数据库(例如NR90 数据库,SWISS-PROT 数据库)找到一组序列,,然后对这组序列继续扫描,找到同源的多组序列,一般设置的参数如下:3 次迭代,E-value 值为 0.0001,其他参数默认即可,这样能够得到 20*L 维的向量,其中 L 表示蛋白质序列的长度。
..........
2.2 机器学习方法
随机森林算法是 2001 年由 Leo Breiman 和 Adele Cutler 提出的,它是一种组合分类器,是由多个基础分类器决策树构成的。决策树是一种属性的分类器,它是有三种节点组成,根节点,内部节点,叶节点。而决策树的总类很多,常用的有三种 ID3、C4.5、CART。这三种算法在内部节点分支的过程中都是选择分类效果最好的分支进行分类,重复这个过程,直到所有的决策树能够全部训练出准确的分类效果,或者达到分类的条件终止。对于每棵决策树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练集中。随机森林训练过程的算法描述如下,这里以 CART 决策树为例: 如果当前节点上达到终止条件,则设置当前节点为叶子节点,如果是分类问题,该叶子节点的预测输出为当前节点样本集合中数量最多的那一类 c(j),概率 p 为 c(j)占当前样本集的比例;如果是回归问题,预测输出为当前节点样本集各个样本值的平均值。然后继续训练其他节点。如果当前节点没有达到终止条件,则从 M 维特征中无放回的随机选取 m 维特征。利用这 m 维特征,寻找分类效果最好的一维特征 k 及其阈值 th,当前节点上样本第 k 维特征小于 th 的样本被划分到左节点,其余的被划分到右节点。继续训练其他节点。
........
第三章 基于K-spaced氨基酸构成的蛋白质-DNA .... 17
3.1 数据来源 ........... 17
3.2 K-spaced 氨基酸对特征表示方法 ........ 18
3.3 预测模型建立.... 18
第四章 结果比较与讨论 ..... 20
4.1 蛋白质-DNA 结合位点氨基酸残基倾向性分析 ............ 20
4.2 PDNA62 和 PDNA224 预测模型参数分析 ............ 22
4.3 与其他预测器性能比较 ...... 26
4.4 本章小结 .......... 27
第五章 结束语 ........... 28
第四章 结果比较与讨论
4.1 蛋白质-DNA 结合位点氨基酸残基倾向性分析
Two Sample Logo[41]是一个基于网络的应用程序,用来计算氨基酸或者核苷酸两个样本集之间的差异,并形成可视化图形。它是基于统计学,计算每个残基的序列排列的组的每一个位置,在零假设的情况下观察正样本和负样本在同一位置的分布。两样本标志可以用来确定显著残留在各个活性位点,蛋白质的修饰位点,或者找到两组序列相同的序列之间的差异。 Two Sample Logo 是由 Vladimir Vacic 、Lilia M. Iakoucheva 和 Predrag Radivojac 开发的,该软件能够形成两种图形表示,一是显著表示某一特定位置的氨基酸残基,二是统计学符号,用来表示两个样本的差异大小。绘制的图形可以根据表达的需要进行颜色的变化,已达到更加清楚明了的进行差异性的说明,Two Sample Logo 正因为它的实用性方便,表达明了,已经在诸如蛋白质翻译后修饰位点预测问题中有广泛应用。 本文中,应用了 Two Sample Logo web 服务,分别对 PDNA62 数据集和PDNA224 数据集,进行了实验。我们实验的目的主要是对于蛋白质-DNA 结合位点有明显聚集的氨基酸进行分析。分析结果如图 4-1,图 4-2 所示。其中图 4-1表示 PDNA62 数据集测试结果,图 4-2 为 PDNA224 数据集测试结果。我们分别将两个数据集的正负样本输入到软件中,其中第 10 个位置表示了蛋白质-DNA结合位点或者是非结合位点,通过两个图,我们能够直观的看出来,精氨酸(Arg)、赖氨酸(Lys)、天冬酰胺(Asn)对于蛋白质与 DNA 结合有着显著的作用。 与此同时,我们还对两个数据集的氨基酸的频率信息进行了分析,图 4-3 为PDNA62 数据集的氨基酸分布比较图,图 4-4 为 PDNA224 数据集的氨基酸分布比较图。我们对两个数据集的蛋白质-DNA 结合位点与非结合位点进行了统计,也能得出精氨酸和赖氨酸的作用显著,其中精氨酸在 PDNA62 数据集中约占27%,赖氨酸约占 16%,天冬氨酸约占 7%。精氨酸在 PDNA224 数据集中约占18%,赖氨酸约占 13%,丝氨酸(Ser)约占 9%,天冬氨酸约占 6%。这与 Two Sample Logo 图的结果相已知。其他论文中实验结果显示,精氨酸和赖氨酸属于碱性氨基酸,天冬氨酸属于带极性侧链的氨基酸残基,从这点上也说明氨基酸物化属性中的碱性和极性侧链对于蛋白质-DNA 相互结合预测有很大的帮助。
.....
结束语
本文主要是用 K-Spaced 氨基酸对的方法与蛋白质-DNA 结合位点进行了预测。从实验结果可以看出,选择用 K-Spaced 氨基酸对方法对于蛋白质-DNA 结合位点的预测的有效性,从蛋白质序列的角度来看,这种方法之所以有效的原因是,它不仅考虑了 20 种氨基酸的信息,还保留了局部氨基酸对的相互作用信息。本文的实现过程,大体分为三个过程,首先是对于初始数据集的处理过程,主要得到的是符合要求的蛋白质序列文件,其中包含了三列,分别是氨基酸序号,蛋白质-DNA 结合位点位置,以及不同窗口长度的氨基酸序列。其次,用 K-Spaced氨基酸对的方法进行编码。最后,利用支持向量机的方法(SVM)进行预测。本文选自了五种评价标准,分别是准确度(accuracy,Ac),敏感度(sensitivity Sn),特异性(specificity Sp)、马氏相关系数(Matthews correlation coefficient)以及AUC 值。 从实验结果可以分析可得,K-Spaced 氨基酸对的方法包含了局部氨基酸对相互作用信息,所以取得非常好的效果。本文选择了与其他的预测蛋白质-DNA结合位点的模型比较,从中可以看出此方法的效果。 蛋白质-DNA 相互作用在生物学途径有着非常重要的地位,所以蛋白质-DNA 结合位点预测问题,有着非常大研究意义,本文采用了这样的方法,取了很好的效果,但是还有很多可以继续探究的地方,比如在预测方法上,本文只用了 SVM,还可以运用随机森林等方法预测,以及集成学习的方法,也许会有更好的效果。这也将会是我以后继续研究的方面。
.........
参考文献(略)
本文编号:37734
本文链接:https://www.wllwen.com/wenshubaike/lwfw/37734.html