当前位置:主页 > 理工论文 > 生物学论文 >

基于Spark的关键蛋白质预测算法及shuffle内存优化策略研究

发布时间:2024-02-03 15:46
  生物信息处理是最近几年的一个热门研究方向,特别是对关键蛋白质预测算法的研究。它能够有效快速地预测出蛋白质相互作用网络里的一些关键蛋白质,这类蛋白质对于生物体的存活、繁殖以及药物靶点选择的研究极其重要。目前已经存在很多关键蛋白质的预测算法,但由于一些算法的计算复杂度过高,使得对于小规模的蛋白质相互作用网络的计算都十分困难,基于分布式计算将该类算法并行化加速是可行的解决方案。近年来Spark已经成为一个成熟的分布式计算框架,但在实际分布式计算过程中Spark的shuffle性能低下,因此探索Spark自身的shuffle优化策略具有十分重要的研究意义。本文的主要研究成果如下:(1)在预测关键蛋白质的研究方面,L-BC指标具有考虑网络局部特性以及减少算法运行时间的优点,而k-BC指标对顶点重要性程度划分地更加细致,本文结合了这两个算法的优点提出了L1-BC指标。实验结果表明,在大多数数据集上L1-BC指标的预测准确率整体都要优于其它常见的单个拓扑属性指标,特别是与传统的BC指标相比,L1-BC指标的预测准确率能够提高10%~50%。为了加速L1-BC指标的计算,本文基于Spark实现了 L1...

【文章页数】:72 页

【学位级别】:硕士

【部分图文】:

图2-1蛋白质相互作用网络??Figure?2-1?Protein-protein?interaction?network??

图2-1蛋白质相互作用网络??Figure?2-1?Protein-protein?interaction?network??

络的研宄与分析,能够更好的帮助人们理解细胞的生命活动,有效的进行疾病防治??[36】。从图论的角度来看,蛋白质相互作用网络就是一张图,如图2-1所示。??图2-1蛋白质相互作用网络??Figure?2-1?Protein-protein?interaction?network??....


图2-2?map的计算逻辑??Figure?2-2?The?computational?logic?of?map??

图2-2?map的计算逻辑??Figure?2-2?The?computational?logic?of?map??

例如map计算操作,它表示父RDD的每个partition的数据经过compute函数??计算映射到子RDD的对应的partition,每个RDD中的partition之间互不干扰,它??的RDD计算逻辑如图2-2所示。??RDDl?RDD2??map?计算??partition....


图2-3?reduceByKey的计算逻辑??Figure?2-3?The?computational?logic?of?reduceByKey??

图2-3?reduceByKey的计算逻辑??Figure?2-3?The?computational?logic?of?reduceByKey??

调度管理集群资源。接下来简单介绍一下standalone模式的大致结构。??—个标准的standalone模式集群有以下四大角色:Driver、Master、Worker、??Executor。具体如图2-4所示。??14??


图2-4?Standalone集群的角色??Fiure?2-4?Roles?of?standalone?Cluster??

图2-4?Standalone集群的角色??Fiure?2-4?Roles?of?standalone?Cluster??

paitition5?::滅丨?u戀:::|??图2-3?reduceByKey的计算逻辑??Figure?2-3?The?computational?logic?of?reduceByKey??从图中可以看出,在map端计算完成后,RDDI的每个partition的数据都会??....



本文编号:3894343

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/3894343.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户5e924***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com