当前位置:主页 > 医学论文 > 生物医学论文 >

基于PPI网络的生物信息数据挖掘关键技术研究

发布时间:2018-03-19 04:06

  本文选题:基因共表达 切入点:蛋白质复合物 出处:《华中师范大学》2015年博士论文 论文类型:学位论文


【摘要】:蛋白质是基因表达的产物,生命活动的重要物质基础,几乎参与所有的生命活动和生物过程。研究发现,大多数蛋白质不能独立地执行生物功能,而是通过相互作用以协作的方式发挥其生物功能。日前,随着蛋白质相互作用数据的不断积累和完善,复杂生物网络中蛋白质相互作用网络逐渐成为系统生物学研究的热点问题之一。本文利用蛋白质相互作用网络,就蛋白质复合物的挖掘、关键蛋白质的识别、致病基因的预测等热门问题进行了较为深入的研究,具体研究如下:1.基于蛋白质复合物“核-附属物”的内部结构及核内蛋白质高度共表达的新发现,提出了一种基于基因共表达的蛋白质复合物挖掘算法。首先,根据编码相互作用蛋白质的基因之间存在共表达的特性,本文利用基因表达数据,构建了带权的蛋白质相互作用网络。然后,从边的角度选择权重大的边作为种子,识别出蛋白质复合物的核蛋白质。最后,根据为每个蛋自质复合物的核识别附属蛋白质,与核一起形成蛋白质复合物。2.结合已有关键蛋白质识别算法的优点,本文提出了一种基于局部连通强度的关键蛋白质识别算法。算法利用关键蛋白质往往对应着蛋白质相互作用网络中的高度蛋白质这样的事实,从源节点出发根据局部连通度的大小逐步逼近网络中的核心节点,以此识别山蛋白质网络中的高度关键蛋白质;然后,根据网络中蛋白质节点的局部中心性,识别蛋白质相互作用网络中处于稀疏区域的关键蛋白质。该算法既能识别蛋白质网络中处于稠密区域的关键蛋白质,又能识别蛋白质网络中稀疏区域的关键蛋白质,有效地提高了关键蛋白质识别的准确度。3.研究发现,关键蛋白质往往聚集于蛋白质复合物或功能模块,本文也对标准蛋白质复合物数据集进行了统计,结果发现超过60%的蛋白质复合物中都有关键蛋白质的存在。基于这种发现,并结合蛋白质复合物的“核-附属物”内部结构,提山了一种基于关键蛋白质的蛋白质复合物挖掘算法。首先,关键蛋白质节点为中心,根据一阶连通强度进行第一次扩展识别核蛋白质。然后,根据二阶连通强度为每个蛋白质复合物的核识别附属蛋白质,并与核一起生成蛋白质复合物。实验结果显示,本文提出的算法能够有效地从蛋自质网络中挖掘蛋白质复合物。4.研究发现,相同或相似疾病的致病基因所编码的蛋白质倾向于在蛋白质相互作用网络中聚集。基于这种发现,本文提出了基于功能流的致病基因识别算法,根据基因与蛋白质问的对应关系,利用蛋白质相互作用网络识别致病基因。文章首先基于基因本体GO计算基因之间的功能相似性,构建了带权的人类蛋白质相互作用网络,并将已知的致病基因以及同在一个关联区域的候选基因映射到蛋白质网络中。然后,以已知致病基因为源点模拟功能流算法过程,计算网络中每个蛋白质(基因)获得来自致病基因的功能得分。最后,根据功能得分对关联区域的候选基因进行排序,排序靠前的基因被认为更可能成为致病基因。总之,本文基于蛋白质相互作用网络的实际应用展开研究,利用蛋白质相互作用,基因表达、基因本体等生物数据,分别从边和点的角度设计了两种蛋白质复合物挖掘算法,基于连通强度设计了一种关键蛋白质识别算法,基于功能流思想设计了一种致病基因预测算法,并在真实数据集上进行了实验分析,结果显示本文提出的算法是有效的。
[Abstract]:Protein is the product of gene expression, an important material basis of life activities, involved in almost all life activities and biological processes. The study found that most proteins cannot independently perform biological functions, but through interactions in a cooperative manner to play its biological function. The day before, with the accumulation of protein interaction data and improve the complex biological networks, protein interaction network has gradually become one of the hot issues of systems biology. The protein interaction network, mining protein complexes, identify key protein, in-depth study of the pathogenic gene prediction and other hot issues, specific studies are as follows: 1. protein complexes based on nuclear appendage the internal structure and the newly discovered nuclear protein is highly expressed, propose a method based on gene expression of the egg white Quality of complex mining algorithm. Firstly, according to the existing characteristics of the co expression of encoding protein interactions between genes, using gene expression data, construct the weighted protein interaction network. Then, select the right side from the side of the great angle as seed, identify the nuclear protein protein complexes. Finally, according to the for each egg nucleus recognition self interstitial complexes attached to protein, and nuclear protein complexes together form.2. combines the advantages of existing key protein recognition algorithm, this paper proposes a local connectivity based on the key protein recognition algorithm. Algorithm using key proteins often correspond to the height of protein-protein interaction network in the fact from the source node based on local connectivity gradually approaching the size of the core nodes in the network, in order to identify the protein network in high mountain Then, according to the local key protein; protein center node in the network is the key protein sparse region recognition protein interaction network. The algorithm can not only in the key protein dense region recognition protein network, and the key protein identification of protein sparse region network, effectively improve the accuracy of the.3. key identification of protein found that key proteins tend to congregate in protein complexes or functional modules, this paper also makes statistics on the standard protein complex data sets, and found the key protein protein complexes in the presence of more than 60%. Based on the findings, combined with the protein complex nuclear appendage internal structure. Propose a mining algorithm based on key protein protein complexes. Firstly, the key node proteins as the center, according to a Order connectivity first extended identification of nuclear protein. Then, according to the identification of two order for each nuclear protein complex connectivity affiliated protein, and together produce nuclear protein complexes. The experimental results show that the proposed algorithm can effectively from the protein network in mining of.4. protein complex found pathogenic the same or similar disease gene encoding proteins tend to cluster in the protein interaction network. Based on the findings, proposed pathogenic gene identification algorithm based on function flow, according to the corresponding relationship between the gene and protein Q, using protein interaction networks. Firstly, based on the identification of pathogenic gene of GO gene between the gene ontology calculation the similarity function, construct the human protein interaction network with weight, and known pathogenic genes and associated with a The candidate gene mapping region to the protein network. Then, the source function simulation flow algorithm to the known genes was calculated for each protein network (genes) obtained from gene function score. Finally, according to the function of the regional association score of the candidate base for sorting, sorting by the gene is thought to be more may be the pathogenic gene. In short, research on the practical application of the protein interaction network based on the use of protein interaction, gene expression, gene ontology and other biological data, respectively from the side and point angle design of two kinds of protein complex mining algorithm, a key protein recognition algorithm based on connectivity design, design a disease gene prediction algorithm based on the idea of function flow, and the experimental analysis on real data sets, the results show that the proposed algorithm is effective.

【学位授予单位】:华中师范大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:Q51;Q811.4

【相似文献】

相关期刊论文 前10条

1 刘彬彬;李敏;王建新;段桂华;;基于团渗透和距离限制的蛋白质复合物识别算法[J];系统工程理论与实践;2012年02期

2 黄新;;一种基于极大团扩展的蛋白质复合物识别算法[J];饲料工业;2012年13期

3 王可玢,赵福洪,许春辉;不同叶龄黄瓜叶片叶绿素蛋白质复合物组分的比较研究[J];植物学通报;1989年04期

4 汤海旭,陈洁,丁达夫;蛋白质复合物结合自由能的预测(英文)[J];生物化学与生物物理学报;1998年02期

5 杨丹慧;许春辉;王可玢;戴云玲;;镉离子对菠菜叶绿体色素蛋白质复合物及激发能分配的影响[J];Journal of Integrative Plant Biology;1990年03期

6 胡伟;汤希玮;;一种新的基于多数据源的蛋白质复合物识别算法[J];计算机与应用化学;2014年04期

7 汤希玮;王建新;胡秋玲;;蛋白质复合物预测方法分析与比较[J];计算机应用研究;2011年10期

8 储钟稀,牟梦华,邵宏翔,王凤珍;铈对黄瓜叶绿体叶绿素蛋白质复合物形成的影响[J];植物学报;1994年10期

9 王可玢,娄世庆,赵福洪,戴云玲,匡廷云;长期二氧化碳倍增对大豆、谷子叶片的叶绿素蛋白质复合物的影响[J];科学通报;1997年11期

10 李爱芬,陈敏,周百成;褐藻色素-蛋白质复合物PAGE分离研究[J];烟台大学学报(自然科学与工程版);1999年03期

相关会议论文 前6条

1 蒋思婧;马立新;陈焕春;;表达蛋白质复合物的伪狂犬病毒系统的建立[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年

2 汪文俊;王广策;马圣媛;孙海宝;曾呈奎;;条斑紫菜类囊体膜的分离以及色素-蛋白质复合物的分离以及特性的初步研究[A];中国藻类学会第十一次学术讨论会论文摘要集[C];2001年

3 汪文俊;王广策;马圣媛;刘洪艳;孟斌;烫晓荣;孙海宝;曾呈奎;;条斑紫菜类囊体膜的分离以及色素-蛋白质复合物的分离以及特性的初步研究[A];中国科学院海洋科学青年学术研讨会暨2001年海洋湖沼科学青年学者论坛论文摘要集[C];2001年

4 都建;秦宜德;姚雪彪;;一个新的与CENP-E结合的动点蛋白CENP-V的发现与功能研究[A];华东六省一市生物化学与分子生物学会2010年学术交流会论文集[C];2010年

5 邵锦震;张宇博;丁毅;;水稻类囊体膜蛋白质复合物的BN/SDS-PAGE分离与蛋白质组学研究[A];中国遗传学会第八次代表大会暨学术讨论会论文摘要汇编(2004-2008)[C];2008年

6 唐淳;;极弱蛋白质瞬态复合体与磷酸信号转导[A];中国生物化学与分子生物学会第十一次会员代表大会暨2014年全国学术会议论文集——专题报告一[C];2014年

相关博士学位论文 前7条

1 张伟;病毒诱导的先天免疫信号网络的数学建模和蛋白质复合物识别[D];武汉大学;2014年

2 赵军民;基于PPI网络的生物信息数据挖掘关键技术研究[D];华中师范大学;2015年

3 任峻;蛋白质网络中复合物的挖掘与应用研究[D];中南大学;2013年

4 潘建义;大肠埃希氏菌蛋白质复合物组的鉴定分析及重要复合物的功能研究[D];厦门大学;2008年

5 徐博;基于蛋白质关系网络的复合物抽取研究[D];大连理工大学;2014年

6 彭玮;基于随机游走模型的蛋白质网络研究[D];中南大学;2013年

7 常珊;蛋白质结构预测方法学研究[D];北京工业大学;2009年

相关硕士学位论文 前10条

1 彭小清;动态蛋白质网络的构建和蛋白质复合物识别研究[D];中南大学;2012年

2 赵艳丽;基于时序网络的蛋白质复合物挖掘与疾病基因预测研究[D];华中师范大学;2015年

3 易阳;基于结构域信息的蛋白质复合物识别与疾病基因预测[D];华中师范大学;2016年

4 王丹阳;基于路径相似性的蛋白质复合物检测方法[D];西安电子科技大学;2012年

5 李鹏;基于蛋白质亲和密度扩展的蛋白质复合物挖掘[D];华中师范大学;2014年

6 张海;大鼠神经细胞蛋白质复合物组学和多肽组学研究[D];湖南师范大学;2010年

7 武学鸿;蛋白质网络的聚类分析方法及评估[D];中南大学;2013年

8 李灿;基于基因本体的蛋白质网络中蛋白质复合物识别算法研究[D];湖南大学;2013年

9 刘女英;Blue native-PAGE分离复合物方法的建立及其在膜蛋白质复合物鉴定中的应用[D];湖南师范大学;2011年

10 刘鹏飞;基于传播理论的蛋白质复合物挖掘算法研究[D];华中师范大学;2014年



本文编号:1632729

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/swyx/1632729.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0c46***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com