高性能计算机I/O性能优化关键技术研究
发布时间:2022-10-18 18:57
目前超级计算机的计算性能正从Pflops量级向Eflops量级发展,在超级计算机系统结构中,计算子系统和存储子系统分离,计算子系统与存储子系统之间增加了I/O转发层以应对日益增长的计算结点规模。高性能计算应用不断增长的运行规模和日趋复杂的数据处理模式给超级计算机存储系统提出了严峻挑战,目前基于硬盘构建的超级计算机存储系统已经无法满足来自超级计算机系统和高性能计算应用的I/O性能要求。以SSD为代表的新型存储器技术的快速发展为解决超级计算机存储系统面临的技术挑战带来了新的机会,同时,超级计算机也面临着如何高效地组织管理计算结点端的SSD为数据访问服务的技术难题。限于经费原因,目前只能在超级计算机的部分计算结点中安装SSD。本文基于用户的并行I/O特性,提出将部分计算结点上配置的SSD组织成面向作业的临时全局缓存系统(WatCache),它在作业启动时根据作业的不同I/O需求,使用不同数量的含有SSD的计算结点构建成可供该作业所有进程共享访问的全局缓存空间,最后在作业结束时退出。利用本文提出的数据布局机制和元数据缓存机制,WatCache可以在靠近计算结点的位置为应用提供低延迟、高带宽的I...
【文章页数】:157 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 超级计算机的现状和发展趋势
1.1.2 高性能计算应用的I/O需求分析
1.2 超级计算机I/O系统的现状和挑战
1.2.1 超级计算机I/O系统的现状
1.2.2 超级计算机I/O系统面临的挑战性问题
1.3 本文工作
1.3.1 基于应用程序I/O负载感知的临时性客户端Flash缓存系统
1.3.2 面向空间突发I/O特性的计算结点分配策略
1.3.3 层次式I/O系统中的跨层次I/O请求协调控制策略
1.4 论文组织
第二章 相关研究
2.1 基于新型存储器的客户端存储层次
2.1.1 临时存储层次
2.1.2 基于文件系统的管理方式
2.1.3 基于客户端缓存系统的管理方式
2.2 I/O竞争缓解技术
2.2.1 I/O竞争的原因分析
2.2.2 存储服务器端的I/O竞争缓解技术
2.2.3 客户端的I/O竞争缓解技术
2.3 I/O结点负载均衡技术
第三章 基于应用程序I/O负载感知的临时性客户端Flash缓存系统
3.1 引言
3.2 基于应用程序I/O负载感知的临时性缓存系统
3.2.1 缓存系统的临时性组织方式
3.2.2 基于I/O负载感知的计算结点分配策略
3.3 WatCache系统设计
3.3.1 WatCache的基本组成
3.3.2 分布式元数据管理机制
3.3.3 分布式锁管理机制
3.4 数据布局策略
3.4.1 Rank0 I/O特性分析
3.4.2 缓存粒度的选取
3.4.3 基于I/O大小感知的数据布局策略
3.5 元数据缓存机制
3.5.1 小I/O特性分析
3.5.2 元数据缓存机制
3.5.3 与数据布局策略的协同控制
3.6 性能测试
3.6.1 实验环境
3.6.2 整体性能
3.6.3 元数据服务的性能开销
3.6.4 小I/O性能
3.6.5 Rank0 I/O与 all rank I/O性能
3.6.6 BTIO测试程序
3.6.7 WRF工作流
3.6.8 不同快速存储设备比例下WatCache的性能
3.7 本章小节
第四章 面向空间突发I/O特性的计算结点分配策略
4.1 引言
4.2 作业日志和I/O trace的获取方式
4.3 空间突发I/O特性分析
4.3.1 分布的不均匀性度量
4.3.2 作业I/O流量在多个进程中不均匀分布
4.3.3 作业分配结点在多个机柜中不均匀分布
4.3.4 天河一号的空间突发I/O特性
4.4 应用程序I/O特性感知的计算结点分配策略
4.4.1 结点分配准则
4.4.2 可优化的作业类型分析
4.4.3 应用程序I/O特性一致性分析
4.4.4 基于Slurm插件的实现
4.5 性能测试
4.5.1 实验环境
4.5.2 基准测试程序
4.5.3 抽道集应用
4.5.4 WRF应用
4.6 本章小节
第五章 层次式I/O系统中的跨层次I/O请求协调控制策略
5.1 引言
5.2 研究动机
5.2.1 改善数据局部性
5.2.2 均衡I/O结点负载
5.2.3 缓解I/O竞争
5.3 计算结点与I/O结点间的I/O请求协调控制策略
5.3.1 基于内容的I/O转发模式
5.3.2 作业级I/O结点映射机制
5.3.3 基于IOFSL的实现方案
5.4 I/O结点与存储结点间的I/O请求协调控制策略
5.4.1 数据条带的协调分布方法
5.4.2 结合预取优势的数据条带协调分布方法
5.4.3 超大规模作业的数据条带协调分布方法
5.5 性能分析与测试
5.5.1 实验环境
5.5.2 I/O并发度分析
5.5.3 基准测试程序
5.5.4 BTIO测试程序
5.5.5 抽道集应用
5.5.6 WRF工作流应用
5.6 本章小节
第六章 结论与展望
6.1 工作总结
6.2 研究展望
致谢
参考文献
作者在学期间取得的学术成果
【参考文献】:
期刊论文
[1]ONFS:面向高性能计算的基于内存、固态硬盘和磁盘的层次式混合文件系统(英文)[J]. Xin LIU,Yu-tong LU,Jie YU,Peng-fei WANG,Jie-ting WU,Ying LU. Frontiers of Information Technology & Electronic Engineering. 2017(12)
[2]Storage wall for exascale supercomputing[J]. Wei HU,Guang-ming LIU,Qiong LI,Yan-huang JIANG,Gui-lin CAI. Frontiers of Information Technology & Electronic Engineering. 2016(11)
[3]新型高性能计算系统与技术[J]. 廖湘科,肖侬. 中国科学:信息科学. 2016(09)
[4]Sunway Taihu Light supercomputer makes its appearance[J]. Jack Dongarra. National Science Review. 2016(03)
[5]The Sunway Taihu Light supercomputer:system and applications[J]. Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG. Science China(Information Sciences). 2016(07)
[6]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 杨学军,廖湘科,卢凯,胡庆丰,宋君强,苏金树. Journal of Computer Science & Technology. 2011(03)
本文编号:3692871
【文章页数】:157 页
【学位级别】:博士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 超级计算机的现状和发展趋势
1.1.2 高性能计算应用的I/O需求分析
1.2 超级计算机I/O系统的现状和挑战
1.2.1 超级计算机I/O系统的现状
1.2.2 超级计算机I/O系统面临的挑战性问题
1.3 本文工作
1.3.1 基于应用程序I/O负载感知的临时性客户端Flash缓存系统
1.3.2 面向空间突发I/O特性的计算结点分配策略
1.3.3 层次式I/O系统中的跨层次I/O请求协调控制策略
1.4 论文组织
第二章 相关研究
2.1 基于新型存储器的客户端存储层次
2.1.1 临时存储层次
2.1.2 基于文件系统的管理方式
2.1.3 基于客户端缓存系统的管理方式
2.2 I/O竞争缓解技术
2.2.1 I/O竞争的原因分析
2.2.2 存储服务器端的I/O竞争缓解技术
2.2.3 客户端的I/O竞争缓解技术
2.3 I/O结点负载均衡技术
第三章 基于应用程序I/O负载感知的临时性客户端Flash缓存系统
3.1 引言
3.2 基于应用程序I/O负载感知的临时性缓存系统
3.2.1 缓存系统的临时性组织方式
3.2.2 基于I/O负载感知的计算结点分配策略
3.3 WatCache系统设计
3.3.1 WatCache的基本组成
3.3.2 分布式元数据管理机制
3.3.3 分布式锁管理机制
3.4 数据布局策略
3.4.1 Rank0 I/O特性分析
3.4.2 缓存粒度的选取
3.4.3 基于I/O大小感知的数据布局策略
3.5 元数据缓存机制
3.5.1 小I/O特性分析
3.5.2 元数据缓存机制
3.5.3 与数据布局策略的协同控制
3.6 性能测试
3.6.1 实验环境
3.6.2 整体性能
3.6.3 元数据服务的性能开销
3.6.4 小I/O性能
3.6.5 Rank0 I/O与 all rank I/O性能
3.6.6 BTIO测试程序
3.6.7 WRF工作流
3.6.8 不同快速存储设备比例下WatCache的性能
3.7 本章小节
第四章 面向空间突发I/O特性的计算结点分配策略
4.1 引言
4.2 作业日志和I/O trace的获取方式
4.3 空间突发I/O特性分析
4.3.1 分布的不均匀性度量
4.3.2 作业I/O流量在多个进程中不均匀分布
4.3.3 作业分配结点在多个机柜中不均匀分布
4.3.4 天河一号的空间突发I/O特性
4.4 应用程序I/O特性感知的计算结点分配策略
4.4.1 结点分配准则
4.4.2 可优化的作业类型分析
4.4.3 应用程序I/O特性一致性分析
4.4.4 基于Slurm插件的实现
4.5 性能测试
4.5.1 实验环境
4.5.2 基准测试程序
4.5.3 抽道集应用
4.5.4 WRF应用
4.6 本章小节
第五章 层次式I/O系统中的跨层次I/O请求协调控制策略
5.1 引言
5.2 研究动机
5.2.1 改善数据局部性
5.2.2 均衡I/O结点负载
5.2.3 缓解I/O竞争
5.3 计算结点与I/O结点间的I/O请求协调控制策略
5.3.1 基于内容的I/O转发模式
5.3.2 作业级I/O结点映射机制
5.3.3 基于IOFSL的实现方案
5.4 I/O结点与存储结点间的I/O请求协调控制策略
5.4.1 数据条带的协调分布方法
5.4.2 结合预取优势的数据条带协调分布方法
5.4.3 超大规模作业的数据条带协调分布方法
5.5 性能分析与测试
5.5.1 实验环境
5.5.2 I/O并发度分析
5.5.3 基准测试程序
5.5.4 BTIO测试程序
5.5.5 抽道集应用
5.5.6 WRF工作流应用
5.6 本章小节
第六章 结论与展望
6.1 工作总结
6.2 研究展望
致谢
参考文献
作者在学期间取得的学术成果
【参考文献】:
期刊论文
[1]ONFS:面向高性能计算的基于内存、固态硬盘和磁盘的层次式混合文件系统(英文)[J]. Xin LIU,Yu-tong LU,Jie YU,Peng-fei WANG,Jie-ting WU,Ying LU. Frontiers of Information Technology & Electronic Engineering. 2017(12)
[2]Storage wall for exascale supercomputing[J]. Wei HU,Guang-ming LIU,Qiong LI,Yan-huang JIANG,Gui-lin CAI. Frontiers of Information Technology & Electronic Engineering. 2016(11)
[3]新型高性能计算系统与技术[J]. 廖湘科,肖侬. 中国科学:信息科学. 2016(09)
[4]Sunway Taihu Light supercomputer makes its appearance[J]. Jack Dongarra. National Science Review. 2016(03)
[5]The Sunway Taihu Light supercomputer:system and applications[J]. Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG. Science China(Information Sciences). 2016(07)
[6]The TianHe-1A Supercomputer: Its Hardware and Software[J]. 杨学军,廖湘科,卢凯,胡庆丰,宋君强,苏金树. Journal of Computer Science & Technology. 2011(03)
本文编号:3692871
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3692871.html