数据中心RDMA网络资源复用与应用加速研究

发布时间：2022-01-05 07:30

　　远程内存直接访问技术（RDMA）允许应用绕过远端CPU,直接访问远程机器的内存,并将协议栈卸载到网卡来向数据中心应用提供超低的延迟,减少网络通信需要的计算开销。然而,一方面由于RDMA将网络连接存储在空间有限的网卡缓存中来加速网络IO,当通信连接数量过多时会导致网卡缓存命中率低,网络IO性能急剧下降。现有解决方案在本地多个通信线程间使用互斥锁来共享底层网络连接,减少与相同结点通信连接的数量,但存在锁竞争开销大且无法为多个线程提供公平服务的问题。另一方面,网络通信一直是分布式机器学习的瓶颈,当前使用RDMA加速分布式应用的研究仅考虑在小数据通信场景下对传输服务类型和通信原语的选择,没有考虑应用移植时网络通信接口语义不匹配,以及更多影响RDMA性能的因素包括网络连接参数选择,网络缓冲区管理,PCIe传输效率等问题,因此无法为分布式机器学习应用提出系统的有效加速方案。本文的第一个工作针对现有基于互斥锁资源复用方式存在性能瓶颈,接收队列无法在多个应用间复用的问题,且结合资源共享下保障应用服务公平的需求,在系统层面对底层网络资源进行复用,设计抽象连接和异步请求处理来向上层多个应用提供网络服务。本...

【文章来源】：南京大学江苏省 211工程院校 985工程院校教育部直属院校

【文章页数】：87 页

【学位级别】：硕士

【部分图文】：

ROCE、1和RocEvZ协议栈lI]

数据中心,可扩展性,问题,网卡

允许网络设备实现流转发优化（如ＥＣＭＰ?（Ｅｑｕｉｖａｌｅｎｔ?Ｃｏｓｔ?Ｍｕｌｔｉｐｌｅ?Ｐａｔｈ））??而不必关心各种协议头部格式的细节。由于ＲｏＣＥｖ２仅仅改变了网络数据包的??协议格式，对应用层的使用没有任何影响，因此，如图２－１所示，应用可以在??两种ＲＤＭＡ网络服务上无缝切换。与应用直接进行交互的是０ＦＡ（０ｐｅｎ?Ｆａｂｒｉｃ??Ａｌｌｉａｎｃｅ）?Ｓｔａｃｋ和Ｖｅｒｂｓ?ＡＰ丨接口，这些软件层帮助应用完成和网卡硬件一系列??的１０交互。??与传统ＴＣＰ／ＩＰ网络１０模型不同，ＲＤＭＡ网络下由于协议栈卸载到网??卡上，使得１０路径不需要经过内核态，且应用直接和网卡硬件交互，使得??ＲＤＭＡ的１０模型是纯异步的。如图２－２所示｜２１，ＲＤＭＡ提供用户态可访问的??ＱＰ?（ＱｕｅｕｅＰａｉｒ），?ＣＱ?（Ｃｏｍｐｌｅｔｉｏｎ?Ｑｕｅｕｅ）１２丨以及?ＵＡＲ?（Ｕｓｅｒ?Ａｃｃｅｓｓ?Ｒｅｇｉｏｎ）１３丨数??据结构来绕过内核搭建应用与网卡硬件之间１０交互的通道，应用之间的消息??服务建立在由通信双方本地和远端的ＱＰ构建的Ｃｈａｎｎｅｌ－ＩＯ连接之上。首先，??

虚拟地址,物理地址,转换过程,物理内存

并通过特定与每个应用的Ｋｅｙ来访问该映射表，当处理应用的ＷＱＥ时，??可以根据ＷＱＥ中的Ｋｅｙ和指向的虚拟内存地址来在表中查找物理内存地址，??并向该物理内存地址发起ＰＣＩｅ的１０操作⑶。整个地址转换流程如图２－３所示。??

本文编号：3570016

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3570016.html

上一篇：面向多核系统的垃圾回收关键技术研究
下一篇：基于多种嵌入式技术的辅助手臂

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|