基于应用行为分析的高性能计算机存储系统优化技术研究

发布时间:2021-06-11 15:43
  伴随着科技的进步,科学计算在生活中发挥着越来越重要的作用。高性能计算机是其中的重要基础。受摩尔定律的驱动,高性能计算机计算能力一直在不断加强,但是相应的存储系统的发展并没有跟上计算能力进步的脚步,计算系统与存储系统的性能差异越来越大,造成了‘‘存储墙’’问题。针对此,本文研究如何通过分析和学习应用程序和存储系统的行为,来优化存储系统服务能力,提升应用程序I/O和访存性能。本文的主要工作包括:1.提出利用端到端、低开销I/O监控对高性能计算I/O性能行为进行协同分析。本文基于国产超级计算机神威太湖之光的生产环境构建了一套全I/O路径的监控和I/O行为分析系统Beacon。利用该系统,经过一年多对用户行为和系统状态的总结,发现了一系列高性能计算机存储系统的问题,包括:静态的计算节点和I/O转发节点连接导致负载不均衡;共享I/O转发节点应用程序间的严重I/O性能干扰;性能异常的I/O转发节点和后端存储服务器会严重拖慢应用程序I/O性能等,并在此基础上给出针对性优化方案。2.针对现代高性能计算机的I/O性能问题与I/O转发层密切相关的特点,本文提出了基于应用程序历史I/O行为的转发层资源动态分... 

【文章来源】:清华大学北京市 211工程院校 985工程院校 教育部直属院校

【文章页数】:129 页

【学位级别】:博士

【部分图文】:

基于应用行为分析的高性能计算机存储系统优化技术研究


I/O转发架构示例图

模式图,应用程序,模式,进程


第2章背景和相关工作图2.2科学计算应用程序的主要I/O模式程中只有一个进程负责I/O操作。在执行I/O操作的情况下,所有其他进程的数据都通过网络聚合到这个进程中(或者由这个进程分发数据),在某个特定的时刻操作一个文件进行读写。这种方式的主要优势是简单,便于开发者进行程序开发。但是缺点也显而易见:它缺少足够的并行性,往往性能欠佳,因此只适合小规模作业做少量的I/O时使用。N-1I/O模式也是一种常见的I/O模式,它意味着N个I/O进程(数量小于或等于计算进程数)同时操作同一个文件。这种操作的方式因为文件数据比较少,元数据管理简单,对数据的后处理非常友好。但是由于并行文件系统的全局锁的原因,在文件读写的时候涉及到严重的锁开销,性能同欠佳[50]。第三种I/O模式是N-NI/O模式。在这种模式中,所有N个计算进程会同时进行输入输出,同时操作N个独立的文件,每个进程只操作一个文件。这种的方法的坏处就是文件数随着并行度的变化而变化,数据分片和元数据也随着变化,可能会增加用户进行数据后处理的难度。同时错误的数量设置可能会导致读写过于碎片化而不能充分发挥性能。但是在合适的配置下,这种方法可以充分发挥文件系统的能力,提升I/O吞吐率。最后一种模式是N-MI/O模式,N个计算进程中M个I/O进程负责读写M个相应的文件,数据通过M个I/O进程在网络上进行接收或发送,然后M个进程中,每个进程只操作独立文件。这种方式能最大化的减少文件读写的碎片化,保持读写的连续性,但是也对用户/开发者的要求最高,程序开发的难度最高。分析应用程序所采用的I/O模式,并理解其在底层存储系统的行为需要借助I/O行为跟踪和分析工具。本文接下来会介绍目前业界中已经存在的多种面向高性能系统的I/O行为跟踪和分析工具。本文根据他们

实例图,页面,实例,监控系统


第3章端到端的I/O行为检测与分析(a)用户界面(b)管理员界面图3.3Beacon查询页面实例监控系统Beacon为用户提供了丰富的界面,I/O路径全覆盖监控是它的一个非常重要的特性。除此之外,它还为用户展示了不同粒度和级别的I/O数据和历史信息,用户可以细致地观察自己应用程序的I/O行为。Beacon这套监控系统从2017年上线至今,现在仍然在不断迭代以保证更全面、更稳定的监控功能。下面本文会对各个I/O子系统部分的采样做具体的阐述。26


本文编号:3224816

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3224816.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户3da11***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com