基于GPU并行计算的雷达杂波模拟研究
发布时间:2021-02-06 03:09
现代雷达杂波模拟需使用杂波数据实时分析与处理回波信号,然而传统球不变随机过程(SIRP)方法生成杂波数据耗时较长。通过对SIRP方法进行改进,提出一种利用图形处理器(GPU)并行计算提升杂波生成实时性的方法。在计算统一设备架构(CUDA)下,对相关相干K分布杂波算法进行多任务串-并行分析,采用cuBLAS库对细粒度卷积计算进行优化,利用OpenMP+CUDA多任务调度机制改进粗粒度任务并行计算,以提高CPU-GPU利用率并减少数据等待时间。实验结果表明,该方法生成杂波数据的实时性显著提升,且随着杂波数据量增大其加速效果更好,相较传统GPU方法计算速率提高61%。
【文章来源】:计算机工程. 2020,46(11)北大核心
【文章页数】:9 页
【部分图文】:
SIRP方法流程
设矩阵维度 m=Q×p、n=Q、k=Q/p,其中Q分别为500、1 000、2 000,矩阵A=m×n、B=n×k,使用cuBLAS库对矩阵A和B进行相乘运算,不同矩阵维度下计算效率如图2所示。其中,以每秒10亿次的浮点运算数(Giga Floating-point Operations Per Second,GFLOPS)作为计算效率的评价指标。可以看出不同矩阵维度下计算所得GFLOPS均随着加权值p的增加而下降,且各个矩阵维度的GFLOPS在相同计算量下变化趋势明显。设m=Q、n=Q/p、k=Q,矩阵A=m×n,B=n×k,当Q取值为500、1 000、2 000时,不同矩阵维度下计算量随加权值p的增大而减小,计算量减小倍数为p,计算时间随加权值p的变化情况如图3所示。可以看出不同维度矩阵相乘的计算时间随加权值p的增大均出现下降,且当p取值范围为[1,10]时降幅明显,而在p=10后计算时间趋于恒定。
设m=Q、n=Q/p、k=Q,矩阵A=m×n,B=n×k,当Q取值为500、1 000、2 000时,不同矩阵维度下计算量随加权值p的增大而减小,计算量减小倍数为p,计算时间随加权值p的变化情况如图3所示。可以看出不同维度矩阵相乘的计算时间随加权值p的增大均出现下降,且当p取值范围为[1,10]时降幅明显,而在p=10后计算时间趋于恒定。本文通过分析不同矩阵维度的计算特性,推导出适合cuBLAS库进行卷积计算的卷积加速方法ConvC。设L为高斯随机数序列长度,n为滤波器系数个数,若L可分解为M×N行矩阵,设i=N-(n-1),拓展到第k行,设K=(k-1)×N-(n-1),则矩阵A可变换为(M+1)×(N+n-1)维矩阵,矩阵B可变换为(N+n-1)×N维矩阵,具体变换如下:
【参考文献】:
期刊论文
[1]基于CPU-GPU异构并行的MOC中子输运计算并行效率优化研究[J]. 宋佩涛,张志俭,梁亮,张乾,赵强. 原子能科学技术. 2019(11)
[2]高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法[J]. 汤洋,赵达非,黄智濒,戴志涛. 北京邮电大学学报. 2019(03)
[3]基于MPI+OpenMP混合编程模式的大规模颗粒两相流LBM并行模拟[J]. 何强,李永健,黄伟峰,李德才,胡洋,王玉明. 清华大学学报(自然科学版). 2019(10)
[4]基于概率定义扩展样本的机载雷达空间和时间相关海杂波数据仿真方法[J]. 毛辉煌,谢文冲,徐鹏,刘畅. 兵工学报. 2019(03)
[5]基于CUDA与CUBLAS的Tucker分解模块设计与实现[J]. 周琦,柴小丽,马克杰,俞则人. 计算机工程. 2019(03)
[6]基于深度卷积神经网络的服装图像分类检索算法[J]. 厉智,孙玉宝,王枫,刘青山. 计算机工程. 2016(11)
[7]基于改进的ZMNL和SIRP的K分布杂波模拟方法[J]. 朱洁丽,汤俊. 雷达学报. 2014(05)
硕士论文
[1]滨海复杂背景下机载雷达非均匀杂波的建模与仿真研究[D]. 吴奇.电子科技大学 2015
[2]基于CUDA的机载雷达杂波仿真[D]. 张鹏飞.西安电子科技大学 2013
本文编号:3020049
【文章来源】:计算机工程. 2020,46(11)北大核心
【文章页数】:9 页
【部分图文】:
SIRP方法流程
设矩阵维度 m=Q×p、n=Q、k=Q/p,其中Q分别为500、1 000、2 000,矩阵A=m×n、B=n×k,使用cuBLAS库对矩阵A和B进行相乘运算,不同矩阵维度下计算效率如图2所示。其中,以每秒10亿次的浮点运算数(Giga Floating-point Operations Per Second,GFLOPS)作为计算效率的评价指标。可以看出不同矩阵维度下计算所得GFLOPS均随着加权值p的增加而下降,且各个矩阵维度的GFLOPS在相同计算量下变化趋势明显。设m=Q、n=Q/p、k=Q,矩阵A=m×n,B=n×k,当Q取值为500、1 000、2 000时,不同矩阵维度下计算量随加权值p的增大而减小,计算量减小倍数为p,计算时间随加权值p的变化情况如图3所示。可以看出不同维度矩阵相乘的计算时间随加权值p的增大均出现下降,且当p取值范围为[1,10]时降幅明显,而在p=10后计算时间趋于恒定。
设m=Q、n=Q/p、k=Q,矩阵A=m×n,B=n×k,当Q取值为500、1 000、2 000时,不同矩阵维度下计算量随加权值p的增大而减小,计算量减小倍数为p,计算时间随加权值p的变化情况如图3所示。可以看出不同维度矩阵相乘的计算时间随加权值p的增大均出现下降,且当p取值范围为[1,10]时降幅明显,而在p=10后计算时间趋于恒定。本文通过分析不同矩阵维度的计算特性,推导出适合cuBLAS库进行卷积计算的卷积加速方法ConvC。设L为高斯随机数序列长度,n为滤波器系数个数,若L可分解为M×N行矩阵,设i=N-(n-1),拓展到第k行,设K=(k-1)×N-(n-1),则矩阵A可变换为(M+1)×(N+n-1)维矩阵,矩阵B可变换为(N+n-1)×N维矩阵,具体变换如下:
【参考文献】:
期刊论文
[1]基于CPU-GPU异构并行的MOC中子输运计算并行效率优化研究[J]. 宋佩涛,张志俭,梁亮,张乾,赵强. 原子能科学技术. 2019(11)
[2]高性能行任务散列法GPU一般稀疏矩阵-矩阵乘法[J]. 汤洋,赵达非,黄智濒,戴志涛. 北京邮电大学学报. 2019(03)
[3]基于MPI+OpenMP混合编程模式的大规模颗粒两相流LBM并行模拟[J]. 何强,李永健,黄伟峰,李德才,胡洋,王玉明. 清华大学学报(自然科学版). 2019(10)
[4]基于概率定义扩展样本的机载雷达空间和时间相关海杂波数据仿真方法[J]. 毛辉煌,谢文冲,徐鹏,刘畅. 兵工学报. 2019(03)
[5]基于CUDA与CUBLAS的Tucker分解模块设计与实现[J]. 周琦,柴小丽,马克杰,俞则人. 计算机工程. 2019(03)
[6]基于深度卷积神经网络的服装图像分类检索算法[J]. 厉智,孙玉宝,王枫,刘青山. 计算机工程. 2016(11)
[7]基于改进的ZMNL和SIRP的K分布杂波模拟方法[J]. 朱洁丽,汤俊. 雷达学报. 2014(05)
硕士论文
[1]滨海复杂背景下机载雷达非均匀杂波的建模与仿真研究[D]. 吴奇.电子科技大学 2015
[2]基于CUDA的机载雷达杂波仿真[D]. 张鹏飞.西安电子科技大学 2013
本文编号:3020049
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3020049.html