基于分布式计算平台Spark的脱落膜蛋白预测与应用
发布时间:2017-03-20 15:10
本文关键词:基于分布式计算平台Spark的脱落膜蛋白预测与应用,,由笔耕文化传播整理发布。
【摘要】:广泛分布于细胞膜上的膜蛋白同绝大多数分泌蛋白的分泌均有着密切的联系,而且由于膜蛋白是许多信号通路的潜在受体,因此在现代医学中膜蛋白发挥着重要的作用。已有的相关统计表明,现有医学药物靶点有超过一半均作用在膜蛋白上。随着医学的发展,用于诊断不同疾病的生物标志物受到了广泛的重视,其中许多位于细胞膜上的膜蛋白已被作为多种疾病的生物标志物。细胞外的膜蛋白质由于蛋白水溶性的作用可能发生脱落,该过程被称为“胞外域脱落(Ectodomain Shedding)”现象。在这一过程中,位于细胞外膜上的膜蛋白可能脱落并成为分泌蛋白。相关研究显示,约有近4%的膜蛋白会发生脱落。胞外域脱落可以作用于一系列的生物过程且主要由MMP(基质金属蛋白酶)和ADAM(和解整合素金属蛋白酶)控制。由于这一原因,胞外域脱落同许多疾病都有关联,比如:各种炎症、癌症及老年痴呆等慢性疾病。此外,脱落膜蛋白所形成的分泌蛋白易于得到,其广泛存在于血液、唾液以及尿液中。但现在尚无能够对膜蛋白脱落事件进行高效预测的工具,所以现急需能够对膜蛋白是否会发生脱落进行高效且准确预测的工具。随着现代技术的不断发展,生物信息学中各组学的数据量均呈现爆炸式增长。更加丰富的数据给相关研究带来了新的机遇,但对数据的处理也需要提供更高的计算性能,这给原有的单机计算方式带来了严峻的挑战。而分布式计算平台凭借其高效的运算效率,良好的拓展性以及使用的便捷性,为数据的计算问题提供了新的解决方案。本文中使用的膜蛋白数据具有较高的维度,而且构建预测模型的时间复杂度较高,如果采用单机运算方式则需要耗费大量的时间与资源。本文构建的脱落膜蛋白预测模型采用基于分布式计算平台Spark的方式,在保证脱落膜蛋白预测准确性的同时,又提供了更为高效的运算效率。在对脱落膜蛋白预测模型构建的过程中,首先通过比对不同数据库中现有记录获取了相应的蛋白的属性信息,其中能够发生脱落的膜蛋白作为正样本,其他不会脱落的膜蛋白作为负样本。然后将得到的膜蛋白进行初始化并通过特征选择算法获取特征向量的排序列表,从而得到用于实验的初始数据集。最后采用基于内存运算的分布式计算平台Spark,并通过支持向量机(SVM)构建了脱落膜蛋白预测模型。在模型构建的过程中使用多种评定标准对膜蛋白特征向量排序列表进行筛选,最终构建了具有最优预测性能的脱落膜蛋白预测模型。实验结果表明,本文提出的脱落膜蛋白预测模型具有更好的运算性能和预测准确性,同时在实验中预测得到的会发生脱落的膜蛋白中,有许多已被有关研究证实其确实会发生脱落,并在患有某些严重疾病的患者体内具有高表达的特性。模拟实验与对比研究结果表明,本文提出的脱落膜蛋白预测模型能够对膜蛋白是否脱落提供准确判定,并且能够发生脱落的膜蛋白可以作为诊断某些疾病的潜在标志物,预期将在临床医学等领域发挥重要作用。
【关键词】:膜蛋白 胞外域脱落 特征选择 支持向量机 Spark
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:Q51;TP338.8
【目录】:
- 摘要4-6
- Abstract6-10
- 第1章 绪论10-15
- 1.1 研究背景及意义10-11
- 1.2 国内外研究现状11-13
- 1.3 本文主要工作13-14
- 1.4 本文组织架构14-15
- 第2章 特征选择与支持向量机简介15-25
- 2.1 特征选择15-18
- 2.2 支持向量机(SVM)18-25
- 第3章 分布式计算平台简介25-36
- 3.1 分布式系统架构Hadoop25-31
- 3.2 分布式计算平台Spark31-36
- 第4章 脱落膜蛋白预测模型的建立与应用36-57
- 4.1 模型概述36-37
- 4.2 相关数据集的收集37-41
- 4.3 模型实现41-46
- 4.4 实验方法与结果分析46-57
- 第5章 总结与展望57-59
- 5.1 总结57
- 5.2 展望57-59
- 参考文献59-64
- 个人简介64-65
- 致谢65
【相似文献】
中国硕士学位论文全文数据库 前1条
1 汪连恒;基于分布式计算平台Spark的脱落膜蛋白预测与应用[D];吉林大学;2016年
本文关键词:基于分布式计算平台Spark的脱落膜蛋白预测与应用,由笔耕文化传播整理发布。
本文编号:257991
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/257991.html