基于深度Q-learning的自动I/O拥塞控制机制
发布时间:2024-01-27 09:47
并行分布式文件系统中节点达到一定规模时,大量I/O请求竞争I/O资源,造成类似网络拥塞的I/O拥塞,导致I/O吞吐率下降和I/O延迟不可控。本文以Lustre分布式文件系统为应用场景代表,对I/O拥塞控制进行研究。现有Lustre设计对大规模集群下的I/O拥塞问题考虑不足,没有对I/O请求进行有效管控,使得集群整体的效率不高。手动地对集群的存储系统进行I/O拥塞控制在HPC领域的实际应用中不够灵活,尤其是当存储系统的规模达到艾级(Exascale)时,更是难以实现。因此,有必要对自动I/O拥塞控制机制进行研究,保证全局自适应服务质量。提出一种自动I/O拥塞控制机制AIOCC(Automatic I/O congestion control)。在服务端设计了一种以提高应用I/O效率为调度目标的I/O请求调度策略,使用TBF策略实施调度过程,并将令牌分配值反馈至客户端;在客户端设计了一种动态调整I/O请求发送数量和速率的拥塞窗口控制机制,自适应地根据集群的拥塞状况调整I/O请求发送窗口,并基于应用粒度根据拥塞状况分配I/O请求发送窗口。同时,在服务端和客户端使用深度Q-learning方法...
【文章页数】:63 页
【学位级别】:硕士
本文编号:3886735
【文章页数】:63 页
【学位级别】:硕士
图2.5发送窗口分配策略不当示意图
图4.1AIOCC测试环境集群拓扑结构
图4.2Lustre测试环境集群存储容量
图4.3CPU使用记录
本文编号:3886735
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3886735.html