蛋白质功能模块发现方法研究
发布时间:2021-06-11 23:44
在后基因组时代,随着人类基因组测序工作的完成,蛋白质组学已经成为生命科学中的核心研究内容。庞大数量的蛋白质之间的相互作用构成了生命活动的基础。然而单个蛋白质很难发挥特定的生物功能,生命活动中的生物功能一般是通过多个蛋白质共同相互作用而完成的。近年来,飞速发展的高通量技术产生了大量的蛋白质相互作用网络数据。一般认为相互作用的蛋白质具有相同或者相似的生物功能,因此如何从蛋白质互作网络中挖掘出具有特定生物功能的蛋白质模块已经成为当前生物信息学领域中的研究热点。由于人类目前已经发现的蛋白质相互作用数据数量比较少,并且在这些少量互作数据中还存在一些错误的相互作用(假阳性),这些噪声信息使得直接从稀疏的蛋白质互作网络中检测功能模块具有了一定的局限性。因此,完全基于网络拓扑结构的功能模块发现算法检测到的功能模块准确率比较低。然而比较幸运的是人类已经获得了一些少量的经人工审核过的高质量的蛋白质复合体数据。于是,研究设计融合蛋白质互作数据和蛋白质复合体数据的功能模块检测算法是必要的。目前大多数功能模块发现算法都是无监督的,因此本文的主要研究内容是分析蛋白质拓扑模块与功能模块之间的关系,以及设计新的将蛋白...
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:122 页
【学位级别】:博士
【部分图文】:
功能模块检测流程
之间的距离比较短。因此,我们假设如果两个蛋白质拓扑模块之间的拓扑距离比??较近,那么与它们相关的疾病表型也应该很相似。为此,我们设计了蛋白质拓扑??模块间的症状相似性的计算方法,具体算法流程图如图2.1所示。??x??4?2?5?...?3?0?0?2?3?...?5?2??Y?f??\??cosine(vl,v2)??图2.1蛋白质拓扑模块间症状相似性计算方法流程图。M代表蛋白质模块;D代表疾病;??S代表症状。'??Fig.?2.1?Flow?chart?of?symptom?similarity?between?protein?topological?modules.?M?denotes??protein?module,?D?represents?disease?and?S?denotes?symptom.??首先,我们为每一个蛋白质拓扑模块建立一个对应的表型向量。该表型向量??的构建步骤如下:???查找与蛋白质模块中包含的所有蛋白质相关联的疾病集合;???查找与疾病集合中每一个疾病相关联的症状,然后将所有的症状数据放到一??个集合;???建立与蛋白质相关联的症状数据字典,并且记录与每个蛋白质相关联的症状??及关联次数;???建立症状向量,向量的长度是第2步中症状的数量,相应位置的值为第3步中??的关联次数。??与模块对应的症状向量构建完毕后
Fig.?2.2?Distribution?of?protein?topological?module?size?and?the?degree?of?overlap?between?mod???ules.?Figures?Al-7?demonstrate?the?distribution?of?module?size?detected?by?different?community??detection?algorithms.?The?x-axis?denotes?the?module?size,?and?the?y-axis?represents?the?corre???sponding?module?ratio.?Bl-7?represent?the?distribution?of?overlap?degree?between?modules?de???tected?by?different?algorithms.?The?x-axis?represents?the?Jacarrd?similarity?between?two?modules,??and?the?y-axis?represents?the?corresponding?module?ratio.??其它大的社团中。从图2.2B1到B7中可以看出,IBGLL、RAK、WT三种算法对应??的杰卡德相似度小于0.1的模块比例都是很小的;但是BGLL和NS检测到的模块集??合与我们提出的IBGLL算法检测到的模块集合之间的杰卡德相似度小于〇.1的模块??比例较高,这主要是因为ffiGLL是基于BGLL算法输出结果进行模块检测的,在??最终的检测结果中将小于3的模块舍弃,这些舍弃的蛋白质造
本文编号:3225504
【文章来源】:北京交通大学北京市 211工程院校 教育部直属院校
【文章页数】:122 页
【学位级别】:博士
【部分图文】:
功能模块检测流程
之间的距离比较短。因此,我们假设如果两个蛋白质拓扑模块之间的拓扑距离比??较近,那么与它们相关的疾病表型也应该很相似。为此,我们设计了蛋白质拓扑??模块间的症状相似性的计算方法,具体算法流程图如图2.1所示。??x??4?2?5?...?3?0?0?2?3?...?5?2??Y?f??\??cosine(vl,v2)??图2.1蛋白质拓扑模块间症状相似性计算方法流程图。M代表蛋白质模块;D代表疾病;??S代表症状。'??Fig.?2.1?Flow?chart?of?symptom?similarity?between?protein?topological?modules.?M?denotes??protein?module,?D?represents?disease?and?S?denotes?symptom.??首先,我们为每一个蛋白质拓扑模块建立一个对应的表型向量。该表型向量??的构建步骤如下:???查找与蛋白质模块中包含的所有蛋白质相关联的疾病集合;???查找与疾病集合中每一个疾病相关联的症状,然后将所有的症状数据放到一??个集合;???建立与蛋白质相关联的症状数据字典,并且记录与每个蛋白质相关联的症状??及关联次数;???建立症状向量,向量的长度是第2步中症状的数量,相应位置的值为第3步中??的关联次数。??与模块对应的症状向量构建完毕后
Fig.?2.2?Distribution?of?protein?topological?module?size?and?the?degree?of?overlap?between?mod???ules.?Figures?Al-7?demonstrate?the?distribution?of?module?size?detected?by?different?community??detection?algorithms.?The?x-axis?denotes?the?module?size,?and?the?y-axis?represents?the?corre???sponding?module?ratio.?Bl-7?represent?the?distribution?of?overlap?degree?between?modules?de???tected?by?different?algorithms.?The?x-axis?represents?the?Jacarrd?similarity?between?two?modules,??and?the?y-axis?represents?the?corresponding?module?ratio.??其它大的社团中。从图2.2B1到B7中可以看出,IBGLL、RAK、WT三种算法对应??的杰卡德相似度小于0.1的模块比例都是很小的;但是BGLL和NS检测到的模块集??合与我们提出的IBGLL算法检测到的模块集合之间的杰卡德相似度小于〇.1的模块??比例较高,这主要是因为ffiGLL是基于BGLL算法输出结果进行模块检测的,在??最终的检测结果中将小于3的模块舍弃,这些舍弃的蛋白质造
本文编号:3225504
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3225504.html