GPU上SM4算法并行实现
发布时间:2025-01-01 00:12
密码算法的运算速度与算力成正比,一些学者通过提高CPU速度、使用硬件加密卡等方案提高密码算法运算速度。随着图形处理器(GPU)在高性能并行计算领域的广泛应用,国内外学者已经展开了基于GPU加速密码运算的研究,但这些研究基本都是基于DES、AES等国际公开算法的,针对国产商用密码算法SM4的研究还较少。文章在深入研究GPU并行计算机制的基础上,通过研究最优明文数据块、GPU存储类型和线程块对SM4加密的加速比问题,结合CPU与GPU的特性,提出一种GPU上并行SM4算法的最优加解密方案。结果表明,当明文数据块小于8 KB时,加速比(Ep)小于1;明文数据块大小为64 KB时,加速比开始大幅增加;明文数据块大小为256 KB时,加速比达到最大。当选择常量存储作为中间数据存储时,加密速度有所提升,对于大数据量、高速运算的需求来说,这种提升是很有必要的。最优线程块的大小为128~512(必须为32的倍数)个线程数。实验环境下,文章中实现的最优GPU加密方案的速度为普通CPU加密方案速度的26倍。
【文章页数】:8 页
【文章目录】:
0 引言
1 GPU结构
2 SM4密码算法
2.1 轮密钥生成
2.2 轮函数F计算
2.3 加密与解密运算
3 基于CUDA的SM4并行计算设计
3.1 并行方案
3.2 CUDA并行实现
4 最优化设计
4.1 明文数据块大小选择
4.2 参数存放位置选择
4.3 线程块大小划分
5 结束语
本文编号:4021749
【文章页数】:8 页
【文章目录】:
0 引言
1 GPU结构
2 SM4密码算法
2.1 轮密钥生成
2.2 轮函数F计算
2.3 加密与解密运算
3 基于CUDA的SM4并行计算设计
3.1 并行方案
3.2 CUDA并行实现
4 最优化设计
4.1 明文数据块大小选择
4.2 参数存放位置选择
4.3 线程块大小划分
5 结束语
本文编号:4021749
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/4021749.html