当前位置:主页 > 科技论文 > 软件论文 >

效应蛋白数据库的构建及预测方法研究

发布时间:2019-12-03 00:25
【摘要】:病原菌是一种能引起感染的微生物,在这个感染的过程中细菌会侵入到宿主细胞中产生和分泌效应蛋白,这些效应蛋白能够参与或操控细胞进程的各种重要活动。目前,有九种分泌系统在革兰氏阴性菌细胞中已被发现。但是并没有针对效应蛋白开发的注释信息数据库以及对于效应蛋白特征提取和预测的研究并不全面,因此构建一个效应蛋白数据库以及借助机器学习算法和数据挖掘的相关技术对效应蛋白序列进行分析,从而能够完成效应蛋白的预测具有非常重要的意义。本研究主要针对目前细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白的数据库以及效应蛋白预测方法存在的不足之处,开发出细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白的数据库系统SecretEPDB和提出细菌Ⅳ型分泌系统中效应蛋白的预测方法Bastion4。论文主要内容如下:(1)细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白数据库系统SecretEPDB的构建。通过搜集细菌Ⅲ/Ⅳ/Ⅵ型分泌系统效应蛋白数据,使用生物信息工具或在不同的公开数据库中根据效应蛋白的序列提取其注释信息。同时使用MySQL数据库、Struts 2、Hibernate等计算机技术构建SecretEPDB数据库系统。该数据库系统能够对三种效应蛋白提供丰富的注释信息,主要包括:蛋白质基本信息、蛋白质功能、蛋白质二级结构、Pfam区域、KEGG通路信息等。与目前其他效应蛋白数据库相比,SecretEPDB数据库系统中的数据都是经过实验验证的确定性效应蛋白序列,并能提供每一条效应蛋白多方面的注释信息和相应的统计分析工作。(2)细菌Ⅳ型分泌系统效应蛋白的预测方法Bastion4的研究。该方法的构建步骤为搜集细菌Ⅳ型分泌系统中效应蛋白的序列并进行数据预处理,计算并提取蛋白质局部序列编码特征、全局序列编码特征、结构描述编码特征等的不同类型特征,并使用GainRatio方法进行特征选择,结合随机森林算法构建预测模型,最后使用集成学习算法中多数投票机制对不同的模型进行集成,得到细菌Ⅳ型分泌系统效应蛋白的预测方法Bastion4。通过实验和案例分析证明:使用不同但是互补的蛋白质特征能够更好的提高预测性能;在基于单一特征的分类器基础上使用集成学习算法能够更好的完成效应蛋白的预测。相比于现有的两个方法T4EffPred和T4SEpre,Bastion4对细菌Ⅳ型分泌系统中效应蛋白的预测性能最优,F值高达94.2%。
【图文】:

蛋白质序列,格式,序列,学名


酸(Valine)和异亮氨酸(Isoleucine),疏水性相对弱残基主要有和甲硫ethionine)、色氨酸(Tryptophan)、甘氨酸(Glycine)和丙氨酸(Alanine)。带基主要有赖氨酸(Lysine)、精氨酸(Arginine);谷氨酸(Glutamate)、天冬spartate)则为带负电的残基。表 1-3 表示了组成蛋白质一级结构中常见氨基酸及表示形式。氨基酸组成的蛋白质序列常用 fasta 格式的文本形式表示,如图 1-1(A)即是于 NCBI 数据库蛋白质的 fasta 格式,fasta 格式是以“>”开头,接着是序列的gi|1069777805|gb|AOR81463.1|”,所有来源于 NCBI 的序列均有唯一的 gi 号,是序列的标识符以及序列说明,在该条序列中,“gb|AOR81463.1|”则是表明该于 GenBank 的参考数据库,,接收号是“AOR81463.1”,紧随其后是序列的描述序列的学名以及种类。此外,图 1-1(B)是来自于 UniProt 数据库的蛋白质序以“>”开头,序列标识符是“sp”(也可能是“tr”),序列标志还包括该蛋白Prot 数据库的 ID 号、学名、种族信息(OS)、基因组(GN)等信息。换行后是氨基酸序列,每一个氨基酸的位点是使用代表某个氨基酸的字母来表示。A

序列,构建过程,数据库系统


或宿主细胞内的系统,越来越多的生物实验已经证明效应蛋白对细菌以及宿主有着重要的作用。因此,构建效应蛋白数据库系统,从而帮助研究者更为方便地获取效白的信息就显得尤为重要。本章通过搜集整理经过实验验证的细菌Ⅲ型、Ⅳ型、Ⅵ泌系统(T3SS、T4SS、T6SS)的效应蛋白数据(T3SE、T4SE、T6SE),使用生物工具或在不同的公开数据库中根据效应蛋白的序列提取其注释信息,同时使ySQL 数据库、Struts 2、Hibernate 等计算机技术完成对细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中蛋白数据库系统 SecretEPDB(Bacterial Secreted Effector Protein DataBase)的构建。.1 方法概述与流程SecretEPDB 数据库系统的构建流程可分为三个主要步骤:数据搜集、注释信息、构建数据库。第一步为数据搜集,本研究从 UniProt 数据库、发表文献的正样本集、相关文献中这三个方面搜集效应蛋白的数据,并对这些数据进行去重操作,用建 SecretEPDB 的数据集。第二步是根据这些效应蛋白的序列在不同的公开数据库取其注释信息,或者是使用相应的生物信息工具来预测其相关的注释信息。第三步用MySQL数据库将效应蛋白的序列信息及其注释信息存储,并使用Struts 2、Hibern计算机技术完成 SecretEPDB 的网页设计与构建。构建过程如图 3-1 所示。生物信息工具公开数据库
【学位授予单位】:西北农林科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP311.13;R378

【相似文献】

相关会议论文 前5条

1 曹鹏;张红梅;赵学琳;李梅;常文瑞;;几种植物致病菌丁香假单胞杆菌效应蛋白的晶体学研究[A];第十一次中国生物物理学术大会暨第九届全国会员代表大会摘要集[C];2009年

2 赵倩;薛晓波;刘之洋;蔡璐璐;马文秀;邹丽芳;邹华松;陈功友;;水稻细菌性条斑病菌Ⅲ型分泌系统分泌的效应蛋白的鉴定[A];中国植物病理学会2011年学术年会论文集[C];2011年

3 吴同垒;吴清民;;布鲁氏菌Ⅳ型分泌系统效应蛋白的研究进展[A];中国畜牧兽医学会家畜传染病学分会第八届全国会员代表大会暨第十五次学术研讨会论文集[C];2013年

4 单卫星;;植物病原卵菌RXLR效应蛋白的跨膜转运机理研究[A];中国植物病理学会2010年学术年会论文集[C];2010年

5 高月求;姚嫣;朱飞燕;;抑毒方对慢性乙型肝炎患者PBMC免疫效应蛋白表达的干预研究[A];第十次浙江省中西医结合肝病学术会议论文汇编[C];2008年

相关博士学位论文 前6条

1 傅盼翰;志贺氏菌效应蛋白OspI催化泛素结合酶Ubc13脱酰胺化的分子机制[D];浙江大学;2016年

2 张杰;细菌效应蛋白致病机理和拟南芥抗性机制的研究[D];中国科学院研究生院(上海生命科学研究院);2007年

3 顾彪;植物病原卵菌和真菌效应蛋白转运机制研究[D];西北农林科技大学;2012年

4 冯锋;黄单胞菌效应蛋白AvrAC调节植物先天免疫的分子机制[D];清华大学;2012年

5 崔福浩;丁香假单胞效应蛋白AvrRpt2抑制植物免疫分子机制的研究[D];中国农业大学;2013年

6 李姗;病原细菌效应蛋白NIeB家族抑制死亡受体介导的细胞死亡机制的研究[D];中国农业大学;2013年

相关硕士学位论文 前10条

1 黄娟;宿主抵御病原菌入侵的新机制:病原菌效应蛋白的谷胱甘肽化修饰[D];西南大学;2015年

2 徐文婷;嗜吞噬细胞无形体四型分泌系统效应蛋白系统性鉴定及其抗原性研究[D];苏州大学;2016年

3 李楚楚;副溶血弧菌T3SS2新效应蛋白的鉴定及其功能的初步研究[D];浙江理工大学;2016年

4 温晶;猕猴桃溃疡病菌Ⅲ型效应蛋白的筛选及效应蛋白HopX3功能的初步研究[D];西北农林科技大学;2016年

5 许强;小麦条锈菌吸器效应蛋白筛选及HASP268效应蛋白靶标鉴定[D];西北农林科技大学;2016年

6 赵海斌;小麦条锈菌吸器关键效应蛋白三维结构的研究[D];西北农林科技大学;2017年

7 伍海英;鹦鹉热嗜衣原体Ⅲ型分泌系统效应蛋白的预测、鉴定及特性的研究[D];南华大学;2013年

8 陆敢;以酿酒酵母为替代宿主研究嗜肺军团菌效应蛋白的功能[D];中山大学;2011年

9 黎知青;预测的鹦鹉热嗜衣原体Ⅲ型分泌系统效应蛋白的定位及相关性质的初步研究[D];南华大学;2013年

10 何燕华;稻瘟菌新型效应蛋白的筛选及功能初步分析[D];福建师范大学;2014年



本文编号:2568967

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2568967.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5d734***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com