蛋白质相互作用文献挖掘方法、注释体系及挖掘平台研究
本文选题:蛋白质相互作用 切入点:蛋白质相互作用挖掘 出处:《中国人民解放军军事医学科学院》2016年博士论文 论文类型:学位论文
【摘要】:蛋白质相互作用(Protein-Protein Interaction,PPI)是细胞中一类极其重要的生物分子活动,这类活动参与细胞生命周期各个生物学过程。对其研究不仅有助于我们认识生命活动更深的层次,同时对临床疾病的诊断和治疗也具有重要意义。随着生命科学研究的发展,研究成果文献也日益增多。这些文献中含有大量的PPI知识以及PPI最新的研究发现。然而传统的手工阅读文献方式已经难以及时、高效地收集和整理这些信息,从而使得分子生物学家的研究工作变得越发困难,成为人们面临的一大挑战。采用自动化的挖掘方法从文献中获取蛋白质相互作用信息并进行信息结构化存储和展示是解决这一难题的有效途径。然而目前蛋白质相互作用自动挖掘研究领域仍存在不少不足之处:蛋白质相互作用关系挖掘方法性能仍需进一步提高;缺乏合理的描述蛋白质相互作用的注释体系,限制了蛋白质相互作用重要功能注释信息的深入挖掘;缺少满足批量化数据处理需求的蛋白质相互作用辅助挖掘平台以及对文献挖掘结果进行结构化存储和展示的蛋白质相互作用知识库等等。针对这一系列问题,我们提出本课题研究目标:在蛋白质相互作用关系挖掘方法提升基础上,进一步构建蛋白质相互作用本体用于挖掘蛋白质相互作用注释信息;同时,基于建立的蛋白质相互作用挖掘方法开发适合当前需求的蛋白质相互作用挖掘平台,设计适合存储和展示文献挖掘结果的蛋白质相互作用知识库。首先,我们建立了对文献数据进行蛋白质相互作用关系挖掘的支持向量机(Support Vector Machines,SVM)方法。该方法整合四种有效句子特征,即关键词特征、词性特征、逻辑特征以及依存句法特征,并对这些特征进行组合优化研究。在LLL05测试语料上,基于SVM方法取得了准确率为81.8%,召回率为96.4%和F值为88.5%的良好效果。方法的效果优于当前在同一测试集上最好方法。然后,我们构建了蛋白质相互作用功能注释体系——蛋白质相互作用本体(PPI Ontology)。为了更好地挖掘蛋白质相互作用注释信息,我们从蛋白质相互作用本质——生物分子事件的角度出发,提出蛋白质相互作用本体框架,包含蛋白质相互作用发生时间、地点、发生方式、结果以及证据等方面信息。通过这个框架明确了蛋白质相互作用信息的范畴,通过重用现有相关本体以及重新构建蛋白质相互相互作用类型本体,整合得到了包括相互作用参与者的角色及状态、生物学过程、亚细胞定位、相互作用类型、生物学功能以及检测方法六个部分在内的蛋白质相互作用本体。该本体在BC-PPI测试语料集以及人类肝脏相关文献蛋白质相互作用注释信息挖掘应用上取得了较好效果。进一步,我们在构建的蛋白质相互作用挖掘方法基础上,开发了蛋白质相互作用文献挖掘平台(PPICurator)。该平台考虑了当前批量化文献及蛋白质数据处理的需求。同时,用户可以在文献检索及蛋白质相互作用挖掘结果阶段进行数据筛选。平台还具有对蛋白质相互作用挖掘结果进行导出和可视化等功能。该系统可以有效提高研究人员挖掘领域相关文献的蛋白质相互作用信息的速度。最后,我们设计并实现了用于存储从文献挖掘得到的蛋白质相互作用数据的知识库系统(db PPII)。该系统采用浏览器/服务器(B/S)架构,能为用户提供基于本体概念名称、蛋白质名称和蛋白质名称对三种方式来查询和获取蛋白质相互作用信息。同时本体的层次结构可以直观展示蛋白质相互作用的功能分布,具有导航和浏览作用,为用户查找相应功能蛋白质相互作用提供了垂直、便捷的方式。综上所述,本研究工作有以下几点创新之处:(1)基于SVM模型探索了关键词特征、词性特征、逻辑特征以及依存句法特征多个有效的学习特征在蛋白质相互作用关系挖掘中的不同作用效果,并最终获得了这些特征的最优组合,是目前在同一测试数据集上的最好方法。(2)新的蛋白质相互作用注释体系的构建。该体系首次从生物分子事件的角度描述蛋白质相互作用,建立蛋白质相互作用本体,更符合蛋白质相互作用知识表示以及适用于文献挖掘任务。在相互作用注释信息挖掘任务中取得了较好的效果。(3)基于研发的SVM蛋白质相互作用挖掘方法搭建全新的蛋白质相互作用挖掘平台。该平台针对当前大规模数据处理需求,独有蛋白质和PMID批量化查询、文献检索、基于物种的文献分类筛选以及相互作用方向和类型挖掘等功能,较现有的蛋白质相互作用挖掘系统更合理、便捷。(4)针对文献来源的蛋白质相互作用信息的数据库的结构和功能设计。该数据库的结构针对丰富的蛋白质相互作用信息存储需求设计,同时利用本体的层次结构对蛋白质相互作用信息进行了分类导航及展示,便于研究人员对蛋白质相互作用信息进行获取。
[Abstract]:Protein protein interaction (Protein-Protein Interaction PPI) is a kind of important molecular biological activity in cells, the life cycle of various biological processes involved in cell activities like this. Not only helps us to understand the life activities of a deeper level of research, but also has an important significance in diagnosis and treatment of clinical diseases. With the development of life scientific research, research literature is also increasing. The latest research found to contain a large number of PPI knowledge and PPI these documents. However, the traditional manual reading literature has been difficult to timely and efficiently collect and organize the information, which makes the research work of molecular biologists have become increasingly difficult, has become a big challenge facing people using automated mining methods from the literature to obtain protein interaction information and structured information storage and display is the solution of the An effective way to the problem. However, protein-protein interaction automatic mining research field there are still many deficiencies: protein-protein interactions mining method performance needs to be further improved; lack of reasonable description of protein interaction annotation system, which limits the further mining of protein interactions important functional annotation information; lack of data to meet the bulk requirement of protein interaction and auxiliary mining platform on literature mining results are structured storage and display of protein interaction knowledge base and so on. To solve this series of problems, we put forward the research goal: in the mining method of protein-protein interaction based on protein interaction, further construction of ontology for mining protein interaction annotation at the same time, the establishment of information; protein interaction development based on data mining method For the demand of protein interaction mining platform designed for storage and display of data mining results of protein interaction knowledge base. Firstly, we establish the support vector machine mining protein-protein interactions of literature data (Support Vector Machines, SVM) method. The method of the integration of the four effective sentence features, namely keyword feature speech features, logical features and syntactic features, and these features of the combinatorial optimization. In the LLL05 test corpus, based on the SVM method achieved accuracy rate is 81.8%, the recall rate is 96.4% and F-measure for 88.5% good effect. The method is better than the current in the same test set. Then the best way, we constructed a protein interaction system -- functional annotation of protein interaction Ontology (PPI Ontology). In order to better tap protein interaction notes Information, starting from the protein interaction of bio molecular events perspective, proposed protein-protein interaction ontology framework, including protein interaction time, location, mode, and the results in terms of evidence information. Through this framework the protein-protein interaction information category, by reusing the existing ontology and re construct protein interaction the interaction type ontology integration has been including the role and status of the interaction of participants in the biological process, subcellular localization, interaction type, biological function and detection methods of six parts including protein-protein interaction ontology. The ontology has achieved good results in the BC-PPI corpus and related literature of human liver protein-protein interaction annotation the application of information mining. Further, we build the protein interaction dig Driving method based on the development of protein interaction literature mining platform (PPICurator). The platform considering the current mass literature and demand protein data processing. At the same time, the user can select data in the literature retrieval and protein interaction mining results stage. Platform also has the protein interaction and visualization of mining results are derived function. The system can effectively improve the researchers mining related literature protein-protein interaction information rate. Finally, we designed and used to store the knowledge base system of protein interaction data from the literature (DB PPII). The system uses the browser / server (B/S) architecture based on ontology can provide. The concept for the user name and the name of the protein, protein three ways to query and obtain protein interaction information at the same time. The hierarchical structure of the ontology can display the distribution of protein interaction function, with navigation and browsing function for users to find the corresponding function of protein interactions provides vertical, convenient way. In summary, this study has the following innovations: (1) the SVM model to analyze the characteristics of keywords, based on logical characteristics of speech features and the dependency features of several effective learning characteristics in the different effects of protein protein interaction in mining, and finally obtained the optimal combination of these features, is currently the best test method on the data set in the same test. (2) to construct the new system of annotation of protein interactions. The first description of protein interaction from the angle of the bio molecular event system, the establishment of protein interaction ontology, more in line with the said protein interaction knowledge and literature mining is applicable to any Business interaction in the annotation information mining task and achieved good results. (3) mining method SVM protein interaction research to build a new protein interaction based on mining platform. The platform for the large-scale data processing needs, unique query, protein and PMID batch document retrieval, document classification and species selection direction and type of mining system based on existing protein interaction mining system is more reasonable and convenient. (4) the structure and function of the source of protein interaction information database. The database structure design for the rich in protein interaction information storage requirements and design, the use of hierarchical ontology of protein the interaction of information classified navigation and display, is convenient for researchers to obtain information for protein interaction.
【学位授予单位】:中国人民解放军军事医学科学院
【学位级别】:博士
【学位授予年份】:2016
【分类号】:Q51
【相似文献】
相关期刊论文 前10条
1 梁琳慧,韩忠朝;蛋白质相互作用的研究方法[J];生命的化学;2005年03期
2 唐泽耀,戴淑芳,陈华,林原;蛋白质相互作用研究的哲学思考[J];医学与哲学;2005年01期
3 曹建平,马义才,李亦学,石铁流;计算方法在蛋白质相互作用研究中的应用[J];生命科学;2005年01期
4 谢江;张武;梅健;顾知立;吴继宗;李辉;张律文;;一种新的计算预测alpha-synuclein蛋白质相互作用网络的方法(英文)[J];Journal of Shanghai University(English Edition);2008年06期
5 余鑫煜;许正平;;蛋白质相互作用数据库及其应用[J];中国生物化学与分子生物学报;2008年03期
6 刘中扬;李栋;朱云平;贺福初;;蛋白质相互作用网络进化分析研究进展[J];生物化学与生物物理进展;2009年01期
7 王正华;董蕴源;王勇献;;蛋白质相互作用网络的几种聚类方法综述[J];国防科技大学学报;2009年04期
8 陆林英;魏雅卓;崔颖;孙平平;马雅楠;马志强;;基于支持向量机的蛋白质相互作用识别[J];生物信息学;2009年04期
9 王建新;蔡钊;李敏;;一种基于极大团的蛋白质相互作用预测方法[J];高技术通讯;2009年01期
10 李松倍;谢江;张武;武频;;蛋白质相互作用网络的相似子网搜索问题研究[J];计算机工程与应用;2010年03期
相关会议论文 前10条
1 刘珍;孙景春;谢锦云;李亦学;梁宋平;石铁流;;蛋白质相互作用网络中的生物途径分析[A];中国蛋白质组学第二届学术大会论文摘要论文集[C];2004年
2 李占潮;周漩;戴宗;邹小勇;;基于一级结构信息预测蛋白质与蛋白质相互作用[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
3 王存新;马晓慧;陈慰祖;;构象熵对蛋白质-蛋白质相互作用及结合自由能的贡献[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
4 程钢;吴松锋;陈廷贵;万平;朱云平;贺福初;;22周孕龄胎肝蛋白质相互作用网络的构建[A];中国蛋白质组学首届学术大会论文摘要集[C];2003年
5 杨晓明;王建;许望翔;虞东辉;杨永升;刘琼明;周颖;张翠莉;吴志豪;张万巧;刘涛;唐刘君;原艳芝;郝峰;金超智;贺福初;;人类肝脏重要蛋白质相互作用连锁图研究进展[A];中国蛋白质组学第三届学术大会论文摘要[C];2005年
6 吴俊;邓宏钟;朱大智;谭跃进;;蛋白质相互作用网络的度秩函数与度分布[A];2006全国复杂网络学术会议论文集[C];2006年
7 李令东;田瑞军;唐伟;邹汉法;赵宗保;;携异戊烯链小分子与蛋白质相互作用的研究[A];第六届全国化学生物学学术会议论文摘要集[C];2009年
8 李立;肖奕;孙之荣;;酵母蛋白质相互作用网络的模块进化[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年
9 陈慰祖;庄彦;王存新;;用分子模拟方法研究胰岛素二聚体的相互作用和识别[A];第三届全国现代生物物理技术学术讨论会论文摘要汇编[C];2000年
10 马文;刘艳清;郭琼;邓玉林;;生物功能化色谱法研究胰岛素及其受体间的相互作用[A];第十五次全国色谱学术报告会文集(上册)[C];2005年
相关重要报纸文章 前10条
1 记者 常丽君;科学家绘制出迄今最详细蛋白质相互作用图[N];科技日报;2011年
2 胡德荣;蛋白质相互作用网络预测新方法被发现[N];健康报;2007年
3 通讯员 甄蓓 特约记者 吴志军;肝脏蛋白质相互作用图绘出[N];健康报;2011年
4 甄蓓;我科学家成功绘制人类肝脏蛋白质相互作用网络连锁图[N];科技日报;2011年
5 甄蓓;人类肝脏蛋白质“关系网络图”绘成[N];中国医药报;2011年
6 毛黎;美开发细胞内蛋白质相互作用标识技术[N];科技日报;2007年
7 张佳星;人类为何如此与众不同[N];科技日报;2008年
8 白毅;我国计算生物学研究取得重要进展[N];中国医药报;2007年
9 余志平 编译;PCAs给我们带来了什么?[N];中国医药报;2007年
10 欣文;蛋白质相互作用导致疑难病症[N];医药经济报;2002年
相关博士学位论文 前10条
1 沈懿珍;基于协同智能的蛋白质相互作用及其网络研究[D];东华大学;2011年
2 梁治;蛋白质相互作用网络的比较生物学分析及其应用[D];中国科学技术大学;2006年
3 王晓敏;基于蛋白质相互作用网络的功能模块识别及功能预测研究[D];国防科学技术大学;2013年
4 胡静;基于密度聚类和特征分类的蛋白质相互作用热区预测[D];武汉科技大学;2015年
5 李满生;蛋白质相互作用文献挖掘方法、注释体系及挖掘平台研究[D];中国人民解放军军事医学科学院;2016年
6 谢江;蛋白质相互作用网络的数值研究[D];上海大学;2008年
7 史明光;蛋白质相互作用预测方法的研究[D];中国科学技术大学;2009年
8 杜秀全;基于智能计算的蛋白质相互作用预测方法研究[D];安徽大学;2010年
9 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
10 庞开放;基于基因表达和蛋白质相互作用数据集成的蛋白质进化、功能重要性和动态模块化组织的研究[D];上海交通大学;2011年
相关硕士学位论文 前10条
1 董蕴源;基于谱方法的蛋白质相互作用网络分析[D];国防科学技术大学;2007年
2 邴志桐;蛋白质相互作用网络度分布的研究[D];兰州大学;2009年
3 杨晓飞;基于多源数据融合的蛋白质—蛋白质相互作用网络构建方法研究[D];中国科学技术大学;2009年
4 刘U,
本文编号:1629812
本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/1629812.html