面向高通量生物信息分析的智能计算系统的设计与实现
发布时间:2017-10-22 17:35
本文关键词:面向高通量生物信息分析的智能计算系统的设计与实现
【摘要】:随着生物高通量测序技术的不断进步,基因组数据爆炸式增长给基因数据处理带来了巨大的挑战。依靠传统普通集群的调度策略无法应对高通量生物信息分析的处理程序对资源高效利用的需求。不合理的用户参数和调度策略不仅造成了任务等待时间的增加,而且降低了系统资源的利用率。因此研究面向高通量生物信息分析的智能计算系统,以支持计算任务的自动提交和智能调度有着重要的意义。本文针对华大基因研究院的高通量生物计算系统的系统日志进行分析,在对生物信息分析的计算任务进行任务建模的基础上,设计和构建了面向高通量生物信息分析的高通量智能计算系统。该系统能够对系统历史任务进行建模,基于任务模型分析出合理的队列划分和资源分配方案,并能周期性地对不同队列采用不同调度策略进行仿真调度,筛选性能最优的调度算法推荐给管理员,使得调度策略能不断适应系统的变化,从而提高系统的计算性能和资源利用率。本文首先对高通量计算系统的任务日志进行预处理和格式转换,对任务的资源使用特性、任务的投递特性和系统队列特性进行了统计分析。基于任务日志中对每个任务的资源的使用量进行聚类分析,并在此基础上根据任务对资源的需求情况对任务进行划分,进而通过量化指标构建任务模型。在任务日志分析的基础上,本文设计了面向生物信息分析的智能计算系统。该系统能够基于任务模型进行任务提交和智能调度。一方面,队列的划分和资源的分配可以根据队列的任务模型来进行,令具有不同特点的资源能够得到最大程度的使用;另一方面,系统可以针对不同的队列采用不同调度算法进行仿真调度,为队列选择更好的调度算法。论文还提出了基于任务模型的多队列优化调度方法,并对其进行了仿真验证实验。本文研发的系统可为高通量生物信息计算系统的用户提供了一个便于进行调度和资源分配研究的基础平台,系统提供的标准化接口使得容易在该平台上快速增加新的调度算法,并可对调度算法进行部署、测试以及完成性能对比实验,使得系统具有良好的扩展性。
【关键词】:集群 调度 日志分析 队列管理
【学位授予单位】:华南理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP384
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 绪论11-18
- 1.1 研究背景和意义11-13
- 1.2 国内外研究现状13-16
- 1.2.1 集群管理系统的研究现状13-15
- 1.2.2 调度算法的研究现状15-16
- 1.3 主要研究工作和内容16-17
- 1.4 论文的组织结构17
- 1.5 本章小结17-18
- 第二章 相关理论与技术18-24
- 2.1 集群管理系统18-19
- 2.2 任务建模19-20
- 2.3 仿真模拟20-21
- 2.4 系统开发技术21-23
- 2.4.1 J2EE21
- 2.4.2 MVC21-22
- 2.4.3 SOA22-23
- 2.5 本章小结23-24
- 第三章 需求分析24-33
- 3.1 计算集群的日志分析24-29
- 3.1.1 任务特性分析24-27
- 3.1.2 任务投递特性分析27-28
- 3.1.3 队列资源利用率分析28-29
- 3.2 智能计算系统的需求分析29-32
- 3.2.1 基于任务模型的队列管理30
- 3.2.2 基于任务模型的任务调度30
- 3.2.3 调度策略的智能推荐30-31
- 3.2.4 任务流的提交和管理31
- 3.2.5 调度策略的性能评估31
- 3.2.6 在调度算法和队列管理算法方面保持强可扩展性31-32
- 3.3 本章小结32-33
- 第四章 系统设计33-49
- 4.1 系统架构设计33-38
- 4.1.1 系统设计目标33-34
- 4.1.2 系统的总体层次图34-35
- 4.1.3 系统逻辑结构35-36
- 4.1.4 系统核心模块流程图36-38
- 4.2 存储层设计38-39
- 4.3 系统主模块设计39-46
- 4.3.1 Web交互模块39-40
- 4.3.2 用户管理模块40-41
- 4.3.3 集群监控模块41-42
- 4.3.4 日志管理模块42-43
- 4.3.5 智能调度和队列管理模块43-44
- 4.3.6 任务管理模块44-45
- 4.3.7 性能比对模块45-46
- 4.4 系统扩展性设计46-48
- 4.4.1 调度器策略开发接口46-47
- 4.4.2 队列资源分配策略开发接口47-48
- 4.5 本章小结48-49
- 第五章 系统核心模块实现方案49-65
- 5.1 任务建模方案49-53
- 5.1.1 采用改进的聚类方法进行任务建模49-50
- 5.1.2 改进后算法的基本流程50-51
- 5.1.3 聚类结果51-52
- 5.1.4 任务模型的选取52-53
- 5.2 队列划分和资源分配方案53-57
- 5.2.1 队列划分规则53-55
- 5.2.2 资源分配的公平性原则55
- 5.2.3 资源分配算法基本流程55-57
- 5.3 资源预测方案57-58
- 5.4 基于任务模型的调度方案58-64
- 5.4.1 基于任务模型和动态资源分配的调度策略优点59
- 5.4.2 基于传统FCFS调度算法的改进59-60
- 5.4.3 调度方案的实验验证60-64
- 5.5 本章小结64-65
- 第六章 系统部署与测试65-76
- 6.1 系统部署方案65-66
- 6.2 系统测试环境66-67
- 6.3 系统功能测试67-75
- 6.3.1 用户管理67-69
- 6.3.2 队列管理69-71
- 6.3.3 任务管理71-73
- 6.3.4 系统监控73-74
- 6.3.5 性能评估74-75
- 6.4 本章小结75-76
- 结论与展望76-77
- 参考文献77-80
- 攻读硕士学位期间取得的研究成果80-81
- 致谢81-82
- 附件82
【参考文献】
中国期刊全文数据库 前3条
1 陈世平;用于减少网络响应时间的最短作业优先分组调度算法[J];上海理工大学学报;2003年04期
2 罗红,慕德俊,邓智群,王晓东;网格计算中任务调度研究综述[J];计算机应用研究;2005年05期
3 江志华;齐文静;;常用作业调度算法的分析与评价[J];乐山师范学院学报;2008年12期
中国博士学位论文全文数据库 前1条
1 巴巍;实时系统动态优先级任务调度算法的研究[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前1条
1 郑晶;基于GridSim的网格资源调度算法研究[D];福州大学;2006年
,本文编号:1079408
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1079408.html