嵌入式GPU滑动聚束SAR实时成像方法
发布时间:2020-12-15 03:10
针对SAR实时成像系统的传统计算平台实时性不足与功耗过高的问题,研究了一种基于嵌入式GPU的实现方法.为了充分利用嵌入式GPU中有限的内存资源,提出一种内存分割与重配置方案,采用页锁定内存和zero-copy技术,实现数传-计算并行化处理;为解决实时性问题,在算法并行计算环节,利用共享内存、寄存器等资源实现大规模数据并行.结果表明,在TX2上完成16 384×8 192点滑聚SAR成像处理时间为12.66 s,功耗为15 W.该优化方法也适用于其他模式的雷达处理算法,并可为未来嵌入式实时成像处理提供参考.
【文章来源】:北京理工大学学报. 2020年09期 北大核心
【文章页数】:8 页
【部分图文】:
滑聚SAR成像算法流程
① 用于存放升采样前数据的存储空间在升采样后便不复使用,因而升采样结束后将其立即释放;而用于放置升采样后数据的mem21和mem22分配将在mem11与mem12释放成功后进行.② 中间变量,如CS因子、距离徙动因子、距离向时间轴、方位向频率轴等,都采取即分配、即利用、即释放的手段. 这些变量数据量较小,占用的空间往往是kB量级,因而可以顺利获取,不用担心由频繁释放带来的内存碎片化问题.
考虑到TX2的主机和设备的内存共享特性,若分别开辟内存,会导致两段内存中的内容重复. 故此处采用了zero-copy技术,借助免费的映射关系达到有效规避传输时间的作用,如图 3(b).首先分配CPU页锁定内存,这段主机存储在经过指针映射后可以投入到设备空间中使用. 在读取与写入磁盘时用到的是主机端指针,在需要设备端做加速计算处理时,使用相应的设备端指针即可. 在传统GPU上,zero-copy是将数据传输与内核计算操作以流水线的方式执行,因而只能对该块内存读写一次,且性能提升不明显,通常不加以考虑;而TX2得益于其内存共享的特性,节约设备端存储器的同时省去了数据拷贝的时间,因而可以实现真正意义上的零复制.
本文编号:2917541
【文章来源】:北京理工大学学报. 2020年09期 北大核心
【文章页数】:8 页
【部分图文】:
滑聚SAR成像算法流程
① 用于存放升采样前数据的存储空间在升采样后便不复使用,因而升采样结束后将其立即释放;而用于放置升采样后数据的mem21和mem22分配将在mem11与mem12释放成功后进行.② 中间变量,如CS因子、距离徙动因子、距离向时间轴、方位向频率轴等,都采取即分配、即利用、即释放的手段. 这些变量数据量较小,占用的空间往往是kB量级,因而可以顺利获取,不用担心由频繁释放带来的内存碎片化问题.
考虑到TX2的主机和设备的内存共享特性,若分别开辟内存,会导致两段内存中的内容重复. 故此处采用了zero-copy技术,借助免费的映射关系达到有效规避传输时间的作用,如图 3(b).首先分配CPU页锁定内存,这段主机存储在经过指针映射后可以投入到设备空间中使用. 在读取与写入磁盘时用到的是主机端指针,在需要设备端做加速计算处理时,使用相应的设备端指针即可. 在传统GPU上,zero-copy是将数据传输与内核计算操作以流水线的方式执行,因而只能对该块内存读写一次,且性能提升不明显,通常不加以考虑;而TX2得益于其内存共享的特性,节约设备端存储器的同时省去了数据拷贝的时间,因而可以实现真正意义上的零复制.
本文编号:2917541
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2917541.html