结合蛋白水平的多组学数据整合识别基因功能及致病基因
本文选题:遗传疾病 切入点:功能相似性 出处:《南京航空航天大学》2017年硕士论文 论文类型:学位论文
【摘要】:致病基因预测一直是生物信息学领域的一个核心问题,发现致病基因是理解疾病发生机制、协助临床判断和预防治疗的基础。近年来产生了越来越多的基于功能相似性的致病基因预测方法,然而在目前定位的26000多个基因中,约有42%的基因的功能是未知的,功能注释的缺失会导致一些疾病候选基因在预测中被忽视掉。而如果仅仅在基因水平对基因功能进行预测是片面的,作为生物体内各种功能的主要执行者,蛋白质表达与基因功能息息相关,这就需要结合蛋白水平数据研究基因的功能。基于此,本文将结合人类蛋白质组表达数据并整合其他多组学数据预测人类未知基因的功能,预测致病基因。本文主要工作内容如下:本文提出了新的基因功能预测方法Pemo,其基于结合了蛋白质表达量的多组学数据预测基因功能。首先分析通过质谱实验得到的人类蛋白质表达量数据,构建未知功能基因的相关系数矩阵,利用相互作用网络筛选假阳性结果,根据组织特异性和条件概率构建先验概率功能矩阵,通过两个矩阵的乘积对功能注释进行打分排序。接着利用序列信息,RNA-Seq数据和互作网络数据分别对未知基因的功能进行预测,最后Pemo整合这四种组学数据对基因注释。在此基础上,本文结合蛋白水平信息和功能注释计算候选基因与遗传疾病之间的相关性。首先计算遗传疾病与Gene Ontology(GO)注释之间的关系,然后充分挖掘GO数据库功能注释之间的关系,综合考虑注释在GO结构中的距离和其父节点的交集,同时结合蛋白质表达量建立合理的评价机制,评估遗传疾病与基因的关系。在基因功能预测方面,本文首先比较了多种组学数据的预测结果,其中基于蛋白质表达数据集的方法在预测准确率上明显高于其他组学数据。然后分析了基于单一组学数据的预测和整合多组学数据的预测结果,证明Pemo整合多组学数据的策略是有效的,在结合了蛋白水平的信息后,预测准确率有了很大提高。比较Pemo方法和其他基因功能预测方法,在GO的三个方面Pemo的表现都是最好的。在致病基因预测方面,本文成功预测出胃癌、肺癌、乳腺癌和先天性心脏病等遗传疾病的致病基因,假阳性率也较低,在与其他致病基因预测方法进行比较时,本文方法的结果也是有优势的。在致病候选基因的相互作用网络图谱中,大多数致病基因参与共同的致病生物通路,其中一些参与程度较高的候选基因可能是潜在致病基因,有待今后实验进一步验证。
[Abstract]:The prediction of pathogenic genes has always been a core issue in the field of bioinformatics. In recent years, more and more genetic prediction methods based on functional similarity have been developed. However, about 42% of the more than 26000 genes currently located are unknown. The absence of functional annotation can cause some disease candidate genes to be ignored in the prediction. If it is one-sided to predict gene function only at the gene level, it is the main executor of various functions in the organism. Protein expression is closely related to gene function, which requires the study of gene function with protein level data. Based on this, this paper will combine human proteome expression data and integrate other sets of data to predict the function of unknown human genes. The main work of this paper is as follows: in this paper, a novel gene function prediction method, Pemom, is proposed, which is based on multigroup data combined with protein expression. Human protein expression data, The correlation coefficient matrix of unknown functional genes was constructed, the false positive results were screened by interaction network, and a priori probability function matrix was constructed according to tissue specificity and conditional probability. Then the function of unknown genes was predicted by sequence information RNA-Seq data and interaction network data. Finally, Pemo integrates these four genomes to annotate genes. On this basis, the relationship between candidate genes and genetic diseases is calculated with protein level information and functional annotation. The relationship between genetic diseases and Gene ontology o) annotations is first calculated. Then fully mining the relationship between the functional annotations of go database, considering the distance of annotation in go structure and the intersection of its parent nodes, and establishing a reasonable evaluation mechanism combined with protein expression. To evaluate the relationship between genetic diseases and genes. In the prediction of gene function, we first compared the predicted results of a variety of cluster data. The prediction accuracy of protein expression dataset is obviously higher than that of other sets of data. Then, the prediction results based on a single set of data and the integration of multiple sets of data are analyzed. It is proved that the strategy of integrating multiple sets of data into Pemo is effective, and the prediction accuracy has been greatly improved by combining the information of protein level. Comparing Pemo method with other gene function prediction methods, In the prediction of pathogenicity genes, we successfully predicted the pathogenetic genes of gastric cancer, lung cancer, breast cancer and congenital heart disease, and the false positive rate was also low. The results of this method are also superior when compared with other pathogenetic gene prediction methods. In the interaction network map of candidate genes, most of the pathogenic genes are involved in common pathogenicity pathways. Some of these candidate genes may be potential pathogenic genes, which need to be further verified by future experiments.
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R440
【相似文献】
相关期刊论文 前10条
1 ;数秒鉴别致病基因已非设想[J];世界科学技术;2002年01期
2 ;我国科学家发现房颤致病基因[J];中国临床康复;2003年09期
3 ;上海科学家发现一智障致病基因[J];生物学教学;2012年12期
4 王丹;周敬华;曹学兵;;常染色体隐性遗传肢带型肌营养不良症致病基因研究进展[J];国际神经病学神经外科学杂志;2007年03期
5 ;华裔博士杨平发现肺癌致病基因[J];养生大世界;2010年05期
6 刘文玲,胡大一;家族性预激综合征致病基因的发现[J];中国心脏起搏与心电生理杂志;2001年06期
7 余家驹;智力为何与某些疾病伴生?——德系犹太人的高智商可能与他们带有的某些致病基因有关[J];世界科学;2005年07期
8 任翔,梁直厚,姚淇,刘木根;肢带型肌营养不良一家系致病基因排除性定位[J];华中科技大学学报(自然科学版);2005年09期
9 沈轶;曹国凡;蒋沁;;原发性开角型青光眼三个致病基因的研究进展[J];眼视光学杂志;2008年02期
10 丁华新,杨晓苏;儿童型脊髓性肌萎缩症致病基因的研究进展[J];中国当代儿科杂志;2003年03期
相关会议论文 前10条
1 康晓静;唐小辉;;表皮松解性掌跖角化病一维吾尔家系致病基因研究[A];中华医学会第十五次全国皮肤性病学术会议论文集[C];2009年
2 卓业鸿;李秀梅;段山;侯飞;王梅;李亮;葛坚;;广东普宁原发性开角型青光眼候选致病基因和临床特征的研究[A];中华医学会第十二届全国眼科学术大会论文汇编[C];2007年
3 何君;王培光;杨春俊;杨森;张学军;;原发性红斑肢痛症致病基因研究进展[A];中华医学会第14次全国皮肤性病学术年会论文汇编[C];2008年
4 郑多;潘乾;刘征;席兴华;刘小平;胡正茂;夏昆;夏家辉;;一个常染色体显性遗传视网膜色素变性家系致病基因的定位与鉴定[A];中国的遗传学研究——中国遗传学会第七次代表大会暨学术讨论会论文摘要汇编[C];2003年
5 崔勇;杨森;高敏;陈建军;严开林;肖风丽;王培光;张学军;;进行性对称性红斑角化症致病基因的染色体定位[A];中华医学会第十二次全国皮肤性病学术会议论文集[C];2006年
6 王玉萍;杨康鹃;;先天性特发性眼球震颤致病基因研究现状[A];东北三省及内蒙古地区遗传学研究进展学术研讨会论文汇编[C];2009年
7 张向阳;温景敏;杨威;王程;高鲁娜;郑良宏;周专;姚镜;张学;刘静宇;;一个新的疼痛致病基因鉴定与分子致病机制研究[A];第十二次全国医学遗传学学术会议论文汇编[C];2014年
8 翟猛;林鹏飞;毛飞;孙文杰;刘奇迹;焉传祝;龚瑶琴;;遗传性痉挛性截瘫家系致病基因突变分析[A];第十二次全国医学遗传学学术会议论文汇编[C];2014年
9 杜鹃;沈璐;唐北沙;;新的AD-HSP致病基因初步定位研究[A];中华医学会第十三次全国神经病学学术会议论文汇编[C];2010年
10 夏忆;柯铁;吴小艳;金润铭;;先天性长QT综合征治病基因的研究进展[A];中华医学会第十七次全国儿科学术大会论文汇编(下册)[C];2012年
相关重要报纸文章 前10条
1 记者 唐先武;我科学家发现三个反常性痤疮致病基因[N];科技日报;2010年
2 记者 叶又红;中外携手寻找致病基因[N];文汇报;2000年
3 通讯员 万霞 张雯怡 记者 刘志伟;我科学家发现特发性基底节钙化致病基因[N];科技日报;2012年
4 黄敏;非烟民为何患肺癌?致病基因已找到[N];新华每日电讯;2010年
5 卢苏燕;中法科学家发现房颤致病基因——KCNQ1[N];经济参考报;2003年
6 蔚然;中国科学家首次发现房颤致病基因[N];山东科技报;2003年
7 记者褚宁;首次发现:房颤致病基因[N];解放日报;2003年
8 冯立中 朱梅福;“花手花脸”致病基因藏身染色体[N];健康报;2003年
9 记者 高翔;我国专家克隆出颅内钙化致病基因[N];健康报;2012年
10 记者田泓;我科学家发现家族性心房颤动致病基因[N];人民日报;2003年
相关博士学位论文 前10条
1 戴礼猛;先天性并指(趾)畸形和先天性厚甲症家系致病基因鉴定及功能研究[D];第三军医大学;2015年
2 邸亚男;全外显子组测序鉴定RP致病基因EYS新突变及PCG候选致病基因功能研究[D];重庆医科大学;2016年
3 陈玉剑;2型腓骨肌萎缩症家系新致病基因的筛查及发病机制研究[D];中国人民解放军军事医学科学院;2017年
4 吴舜尧;基于复杂网络的致病基因检测研究[D];青岛大学;2014年
5 谷峰;遗传性白内障致病基因的定位及其突变分析[D];中国协和医科大学;2006年
6 刘奇迹;Smith-Fineman-Myers综合征致病基因的精细定位及候选基因分析[D];山东大学;2005年
7 姜yN群;遗传性对称性色素异常症致病基因的定位和突变研究[D];中国协和医科大学;2004年
8 张天晓;两种遗传性眼病致病基因的定位与突变研究[D];中国医科大学;2008年
9 刘嘉利;三例遗传性牙本质发育不全Ⅱ型家系致病基因的定位研究[D];中国人民解放军第四军医大学;2003年
10 柳青;遗传性对称性色素异常症致病基因的突变鉴定和功能分析[D];中国协和医科大学;2005年
相关硕士学位论文 前10条
1 杨华冬;结合蛋白水平的多组学数据整合识别基因功能及致病基因[D];南京航空航天大学;2017年
2 方明宏;基于热扩散模型的致病基因预测方法研究[D];华中师范大学;2015年
3 周元珂;基于人类基因连接组的视网膜色素变异致病基因预测[D];青岛大学;2015年
4 曾磊;全基因组外显子测序搜寻一例家族性进行性色素沉着和色素减退家系的致病基因[D];安徽医科大学;2016年
5 张攀;肝癌重测序数据整合以及肝癌关键致病基因的研究[D];华东师范大学;2016年
6 韦贞乐;基于基因网络的致病基因预测算法研究[D];哈尔滨工业大学;2016年
7 鲁磊;基于网络结构推理和拓扑相似性的致病基因预测算法[D];安徽大学;2017年
8 绳红丹;KIF2A对BBS家系表达差异基因的影响及苗族BBS家系致病基因的筛选[D];昆明理工大学;2017年
9 刘笑逸;基于异构网络模型的致病基因预测算法[D];西安电子科技大学;2013年
10 刘青;基于相互作用网络的致病基因预测方法研究[D];中南大学;2013年
,本文编号:1648371
本文链接:https://www.wllwen.com/kejilunwen/jiyingongcheng/1648371.html