基于PPI网络和基因表达数据的关键蛋白质识别算法
发布时间:2021-11-20 07:05
随着人类基因组计划的开展,越来越多物种的测序数据被生物学家们挖掘出来,从此对于生命科学的研究也逐渐地聚焦于基因组学。然而基因组学的开展只是生命本质特征研究的基础之一,生命过程中细胞的代谢、信号传导以及基因调控等都是通过蛋白质实现的。蛋白质是构造细胞的基本有机物,是生命活动的物质条件和生物功能活性的保证。生物体的蛋白质主要分为两类:关键蛋白质和非关键蛋白质。现有的关键蛋白质是指去除或破坏活生物体中的特定蛋白质后,造成该生物的相关功能的丧失,从而导致该生物体无法生存。关键蛋白质对于细胞的生理活动和生物的存活都是必不可少的。因此,在研究细胞的生长和调控时,如何准确的识别关键蛋白质成为了至关重要的一步。目前,已经有了一系列基于网络拓扑的计算方法用于关键蛋白质的预测,如度中心性(DC)、信息中心性(IC)、信息向量中心性(EC)、子图中心性(SC)、介数中心性(BC)、接近度中心性(CC)、基于边聚集系数的关键蛋白质度量方法(NC)等。随着高通量实验数据的发展,使得多数据预测关键蛋白质成为了可能。其中,基于基因表达数据和PPI网络的关键蛋白质预测算法常被使用,如基于基因表达数据和PPI网络数据的...
【文章来源】:湖南师范大学湖南省 211工程院校
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
酵母PPI网络图
基于PPI网络和基因表达数据的关键蛋白质预测算法研究13Jaccard相关系数在0~1之间。这里,我们将Jaccard相关系数的值定义为PPI网络簇中蛋白质p和蛋白质q的活性表达相似性。3.2.4基于蛋白质成簇特性和活性共表达的识别方法已经证明,具有相似功能的基因往往表现出相似的表达模式,这被称为“guilt-by-association”原理[54]。基于边缘聚类系数(ECC)和Jaccard系数(Jaccard),提出了一种基于边的度中心性度量方法(JDC)。我们从拓扑和生物学的角度描述了两个蛋白质的聚类程度。因此,我们将边(,)在PPI网络中的聚类度定义如下:(,)=(,)(,)(3.9)对于一个蛋白质p,我们将其JDC值定义为该蛋白质与其邻居属于同一簇的概率之和:JDC()=∑(,)(,)∈(3.10)其中表示节点p的所有邻域。JDC测量的值取决于成簇的PPI网络中基因表达的“活跃”和“非活跃”状态的相似性。在本研究中,我们提出了一种基于PPI数据和基因表达的重要蛋白质鉴定方法。该方法的优点是计算简单,并且JDC的性能优于某些最新的预测方法。图3.1显示了JDC预测关键蛋白质的示例。JDC算法融合了基因表达信息和PPI网络数据。JDC的整个过程包括以下几个步骤:1)ECC用于从拓扑的角度描述两个蛋白质在一个簇中的概率;2)设置一个动态阈值来对基因表达数据进行二值化,以过滤基因表达谱中的波动。3)Jaccard相似度指数衡量基因表达谱处于“活性”和“非活性”状态的两个蛋白的相似度;4)综合ECC值和Jaccard相似度指数,计算每个基因的JDC分数。基于这些步骤,我们在JDC值中使用toprank分析来验证我们的方法的性能。图3.1JDC算法示意图
基于PPI网络和基因表达数据的关键蛋白质预测算法研究15图3.2JDC方法和其他预测方法的ROC曲线和AUC值。(a)酵母数据。(b)大肠杆菌数据。比较结果如图3.2所示,在Yeast数据下,JDC曲线下面积(AUC)为0.6996,WDC和NC曲线下面积(AUC)分别为0.6884和0.6889。JDC的方法相较于WDC和NC分别提高了0.0112和0.0107。JDC、WDC和PeC的区别就是在对PPI网络如何进行加权。LI和Tang虽然在ECC的基础上引入了PCC相关系数对PPI网络进行加权,有效的抑制了假阳性和假阴性。但是在引入基因表达数据时忽略了基因表达在不同时刻的“活性”与“不活性”。为此,本研究提出了通过将基因表达数据二值化并引入Jaccard系数来加权,不仅考虑到了PPI网络的假阴性和假阳性,还考虑了基因的活性共表达,使结果更准确更灵敏。从图3.2中可以看出DC、IC、EC、SC、BC、CC和PeC的曲线下面积分别为0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331,本研究方法的面积明显要高于其余的关键蛋白质预测方法。当Yeast的FPR在小于0.4的情况下,JDC方法的ROC曲线较与其余关键蛋白质预测方法性能最优,这说明JDC方法在识别关键蛋白质中具有较高的灵敏度。图3.3JDC方法和其他预测方法的TOP20%蛋白质的ROC曲线和AUC值。(a)酵母数据。(b)大肠杆菌数据。为了进一步比较JDC,WDC和Pec的性能,我们分析了ROC曲线基于每种方法排名前20%的蛋白质,ROC曲线图如图3.3所示。从图3.3可以看出,JDC的AUC在酵母和ecoli数据集上均高于WDC和PeC的ROC曲线当
本文编号:3506815
【文章来源】:湖南师范大学湖南省 211工程院校
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
酵母PPI网络图
基于PPI网络和基因表达数据的关键蛋白质预测算法研究13Jaccard相关系数在0~1之间。这里,我们将Jaccard相关系数的值定义为PPI网络簇中蛋白质p和蛋白质q的活性表达相似性。3.2.4基于蛋白质成簇特性和活性共表达的识别方法已经证明,具有相似功能的基因往往表现出相似的表达模式,这被称为“guilt-by-association”原理[54]。基于边缘聚类系数(ECC)和Jaccard系数(Jaccard),提出了一种基于边的度中心性度量方法(JDC)。我们从拓扑和生物学的角度描述了两个蛋白质的聚类程度。因此,我们将边(,)在PPI网络中的聚类度定义如下:(,)=(,)(,)(3.9)对于一个蛋白质p,我们将其JDC值定义为该蛋白质与其邻居属于同一簇的概率之和:JDC()=∑(,)(,)∈(3.10)其中表示节点p的所有邻域。JDC测量的值取决于成簇的PPI网络中基因表达的“活跃”和“非活跃”状态的相似性。在本研究中,我们提出了一种基于PPI数据和基因表达的重要蛋白质鉴定方法。该方法的优点是计算简单,并且JDC的性能优于某些最新的预测方法。图3.1显示了JDC预测关键蛋白质的示例。JDC算法融合了基因表达信息和PPI网络数据。JDC的整个过程包括以下几个步骤:1)ECC用于从拓扑的角度描述两个蛋白质在一个簇中的概率;2)设置一个动态阈值来对基因表达数据进行二值化,以过滤基因表达谱中的波动。3)Jaccard相似度指数衡量基因表达谱处于“活性”和“非活性”状态的两个蛋白的相似度;4)综合ECC值和Jaccard相似度指数,计算每个基因的JDC分数。基于这些步骤,我们在JDC值中使用toprank分析来验证我们的方法的性能。图3.1JDC算法示意图
基于PPI网络和基因表达数据的关键蛋白质预测算法研究15图3.2JDC方法和其他预测方法的ROC曲线和AUC值。(a)酵母数据。(b)大肠杆菌数据。比较结果如图3.2所示,在Yeast数据下,JDC曲线下面积(AUC)为0.6996,WDC和NC曲线下面积(AUC)分别为0.6884和0.6889。JDC的方法相较于WDC和NC分别提高了0.0112和0.0107。JDC、WDC和PeC的区别就是在对PPI网络如何进行加权。LI和Tang虽然在ECC的基础上引入了PCC相关系数对PPI网络进行加权,有效的抑制了假阳性和假阴性。但是在引入基因表达数据时忽略了基因表达在不同时刻的“活性”与“不活性”。为此,本研究提出了通过将基因表达数据二值化并引入Jaccard系数来加权,不仅考虑到了PPI网络的假阴性和假阳性,还考虑了基因的活性共表达,使结果更准确更灵敏。从图3.2中可以看出DC、IC、EC、SC、BC、CC和PeC的曲线下面积分别为0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331,本研究方法的面积明显要高于其余的关键蛋白质预测方法。当Yeast的FPR在小于0.4的情况下,JDC方法的ROC曲线较与其余关键蛋白质预测方法性能最优,这说明JDC方法在识别关键蛋白质中具有较高的灵敏度。图3.3JDC方法和其他预测方法的TOP20%蛋白质的ROC曲线和AUC值。(a)酵母数据。(b)大肠杆菌数据。为了进一步比较JDC,WDC和Pec的性能,我们分析了ROC曲线基于每种方法排名前20%的蛋白质,ROC曲线图如图3.3所示。从图3.3可以看出,JDC的AUC在酵母和ecoli数据集上均高于WDC和PeC的ROC曲线当
本文编号:3506815
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/3506815.html
最近更新
教材专著