一种基于GPU的枚举排序算法及其并行化
发布时间:2023-04-01 17:45
针对枚举排序算法在处理大规模数据时存在运算量大、计算时间长、计算效率低等问题,提出一种利用GPU并行运算提升大规模数据处理速度的方法。在CUDA下对枚举排序算法进行串-并行分析,分别从细粒度与粗粒度角度进行优化,根据CPU与GPU的结构特点优化排序数据的读取和存储方式,内核采用一个GPU线程对应一次比较操作的计算方法,以充分利用GPU计算能力。实验结果表明,当排序数据规模大于40 000时,在GPU上的运算速度比在CPU上快3倍左右,并且随着数据规模的不断增大,加速比越来越大。研究结果对于提升大规模数值计算效率具有重要的意义。
【文章页数】:6 页
【文章目录】:
0 引 言
1 CUDA体系结构
2 枚举排序算法描述
3 GPU加速的枚举排序并行算法的 分析与设计
3.1 枚举排序并行算法设计
3.2 枚举排序算法并行化方案
(1)为待排序序列a和有序序列b分配设备存储器空间。
(2)把主机端的数据传递到设备端。
(3)定义kernel配置。
(4)发射kernel进行并行计算。
(5)将已排序数据从设备端传输到主机端进行输出。
4 实验与分析
4.1 实验运算平台
4.2 实验结果和性能分析
4.2.1 实验数据
4.2.2 加速性能分析
4.2.3 系统性能瓶颈分析
5 结 论
本文编号:3777580
【文章页数】:6 页
【文章目录】:
0 引 言
1 CUDA体系结构
2 枚举排序算法描述
3 GPU加速的枚举排序并行算法的 分析与设计
3.1 枚举排序并行算法设计
3.2 枚举排序算法并行化方案
(1)为待排序序列a和有序序列b分配设备存储器空间。
(2)把主机端的数据传递到设备端。
(3)定义kernel配置。
(4)发射kernel进行并行计算。
(5)将已排序数据从设备端传输到主机端进行输出。
4 实验与分析
4.1 实验运算平台
4.2 实验结果和性能分析
4.2.1 实验数据
4.2.2 加速性能分析
4.2.3 系统性能瓶颈分析
5 结 论
本文编号:3777580
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3777580.html