当前位置:主页 > 医学论文 > 基础医学论文 >

结核分枝杆菌分泌蛋白的预测研究

发布时间:2020-02-12 05:22
【摘要】:结核分枝杆菌,简称结核杆菌,是一种轻度弯曲的细杆状嗜氧菌,在细胞壁脂质层和荚膜的双重保护下,对外界环境很不敏感,被证明是结核病的元凶。我国的结核病形势向来严峻,尤以肺结核最为严重,每年有约上百万死亡病例。肺结核是一种慢性的呼吸道传染病,早期无明显症状,病程漫长,极易在人群中流行而难于控制。由于结核杆菌的膜结构复杂,点突变频发,上百年来无数医药学家致力于结核分枝杆菌的分子结构和毒性研究,以及结核病的病理研究,但至今尚无能够彻底防治该病的临床药物。最近研究发现,其分泌蛋白具有抗原性,根据抗原与抗体发生特异性结合的性质,可通过识别分泌蛋白来获取抗体,从而为疫苗研发和新药设计提供有价值的线索。本文开发了一种用于识别结核分枝杆菌的分泌蛋白的预测算法,并提供在线服务。首先,我们构建了结核分枝杆菌蛋白质的标准数据集。数据源自UniProt中已经过实验验证的蛋白质序列,并通过CD-HIT软件从最大程度上去除冗余,最终获得了分别包含35条序列和266条序列的正、负样本集。随后,我们提取了蛋白质序列的g-gapped二肽组分特征和物化性质特征,从而将每条序列编码成其独有的特征向量。最后,借助于支持向量机构建和学习预测模型,并在得到最优模型参数的基础上进行特征选择,进一步提高了预测模型的分类效能。结果,我们将每条多肽表示成一个374-维的特征向量,其中包括9-gapped二肽特征和序列的疏水性/亲水性特征,经jackknife检验,用该方法预测分枝杆菌分泌蛋白的平准准确度为87.18%,ROC曲线下面积高达0.93。为验证模型的优越性,本文用Weka软件实现了随机森林、贝叶斯网络和径向基函数三类有代表性的机器学习算法,在同一标准数据集上重新构建预测模型。Jackknife检验再次证明,基于支持向量机的预测模型在该问题上的性能优于其他三类模型,鲁棒性强。为便于领域内的科研人员交流和共享,特构建界面友好的在线服务平台MycoSec(http://lin.uestc.edu.cn/server/MycoSec/),可免费用于非商业用途。
【图文】:

界面图,界面,样本序列,过滤条件


电子科技大学硕士学位论文用序列相似度不高于 30%的过滤条件下,去除了 28 条正样本序列和 91 条负样本序列,使用 cd-hit 处理前后的 M.tuberculosis 蛋白质数据集如表 2-1 所示:

物化性质,二肽,关联性,序列相关


第三章 特征提取方法τj(j=n 1,n 2,, ,2n) 是表示蛋白质序列中第二连续的两个氨基酸或次相邻的两个氨基酸之间序列相关程度的二阶相关因子,故以此类推, ( = ( 1) 1,( 1) 2, , )是 λ-阶序列连续程度相关因子,表示序列中第 λ 连续的或相隔(λ-1)个其他氨基酸残基的两个氨基酸之间的序列相关程度。考虑到该定义的复杂性,特以更直观的方式进一步描述 ,如图 3-1 所示:假设选用了两种物化性质参数作为特征(实际上确实选用了两种,后面会介绍),用蓝色和橙色线条分别表现,此时共有 2λ 个 ( = 1,2, , );a 图中,蓝链表示 1,橙链表示 2, 1和 2分别是物化性质 1 和物化性质 2 的一阶序列相关因子(此时λ=1);b 图中,蓝链表示 3,橙链表示 4,它们均为二阶序列相关因子,此时 λ=2;c 图中,蓝链代表 5,橙链代表 6,均为三阶序列相关因子,此时 λ=3;当 n 取大于 2 的整数值时,同理可得,在此便不赘述。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:R378.911

【参考文献】

相关期刊论文 前1条

1 覃爱淞;张清华;李铁鹰;胡勤;;复合无量纲指标在旋转机械故障分类中的应用[J];现代制造工程;2013年04期



本文编号:2578715

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/jichuyixue/2578715.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户77d6f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com