多核CPU/众核GPU加速的并行优化算法研究
发布时间:2022-02-20 22:39
由于受到半导体工艺、功耗、指令级并行等各种因素的限制,中央处理器体系结构朝着并行方向发展,比如多核架构。与此同时,图形处理器也从专用的图像渲染设备进化成通用并行计算设备,并被重新定义为众核架构。并行硬件架构的高速发展,使处理器的理论峰值性能极大提升,这为大规模科学和工程计算提供了非常好的机遇。然而由于处理器体系结构的多样性,和并行编程的复杂性,传统的算法如何并行化以高效发挥硬件能力,成为一个严峻的挑战。随着高级并行编程模型(如OpenCL, CUDA和Direct Compute)的相继推出,并行程序设计的难度在一定程度上有所降低,简单的移植串行算法到并行平台执行已经不再是难题。但由于并行处理器结构的不同、算法计算特点和编译器优化差异的影响,如何针对特定并行架构设计优化的并行算法仍然是学术界研究的热点。为了解决并行算法针对特定并行架构优化的问题,本文立足于基于多核CPU和众核GPU体系结构,着重针对并行优化算法做了深入的研究。本文采用理论与实验研究相结合的方法,一方面分析了多核CPU和众核GPU的不同体系结构,探讨实现多核CPU和众核GPU的并行计算方法;另一方面结合经典并行算法,研究...
【文章来源】:武汉大学湖北省211工程院校985工程院校教育部直属院校
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
本文创新点
摘要
ABSTRACT
1 绪论
1.1 引言
1.2 研究背景
1.2.1 CPU/GPU架构改进
1.2.2 应用需求
1.2.3 国内外研究现状
1.2.4 面临的挑战
1.3 本文的主要研究工作及创新点
1.4 论文结构
2 并行处理器架构及并行优化算法
2.1 引言
2.2 多核CPU和众核GPU并行计算
2.2.1 并行计算
2.2.2 多核CPU体系结构
2.2.3 众核GPU体系架构
2.2.4 OpenCL并行编程模型
2.2.5 并行算法加速比
2.3 计算复杂性理论
2.3.1 最优化问题
2.3.2 算法复杂性
2.3.3 问题复杂性
2.4 并行元启发式算法
2.4.1 启发式算法
2.4.2 元启发式算法
2.4.3 元启发式算法并行模型
2.5 本章小结
3 基于动态策略的GPU并行蚁群算法
3.1 引言
3.2 蚁群算法介绍
3.3 基于动态策略的GPU并行蚁群算法
3.3.1 内核控制方法
3.3.2 并行优化策略
3.3.3 轮盘赌选择方法优化
3.3.4 路径创建阶段算法
3.3.5 算法描述
3.3.6 算法在GPU上的实现
3.3.7 时间复杂度分析
3.4 实验结果与分析
3.4.1 实验设置
3.4.2 优化初始工作组配置
3.4.3 KE-ALL和KE-ONE内核性能比较
3.4.4 动态工作组内核性能评价
3.4.5 与现有的GPU蚁群算法比较
3.4.6 解质量评价
3.5 本章小结
4 基于多核SIMD CPU的蚁群算法
4.1 引言
4.2 相关工作
4.2.1 多核SIMD CPU
4.2.2 当前GPU蚁群的不足
4.3 基于多核SIMD CPU的并行蚁群算法
4.3.1 现有的并行蚁群模型
4.3.2 基于多核SIMD CPU的并行蚁群算法
4.3.3 路径创建阶段
4.3.4 信息素更新阶段
4.4 性能评价
4.4.1 基于多核SIMD CPU的路径创建算法评价
4.4.2 信息素更新内核评价
4.4.3 计算单元数量与内存带宽对性能的影响分析
4.4.4 算法在GPU上执行性能对比
4.4.5 与现有的高性能GPU蚁群算法对比
4.4.6 解质量验证
4.5 小结
5 基于GPU的迭代局部搜索算法并行优化
5.1 引言
5.2 相关工作
5.2.1 Roofline性能模型
5.2.2 迭代局部搜索算法
5.2.3 研究的意义
5.3 基于GPU的并行迭代局部搜索算法
5.3.1 并行迭代局部搜索算法设计
5.3.2 GPU上邻域结构映射策略
5.3.3 2-opt算子内核的性能分析
5.3.4 目前的优化方法分析
5.3.5 2-opt内核优化方法
5.4 性能评价
5.4.1 线程配置优化
5.4.2 2-opt内核的实际浮点性能分析
5.4.3 2-opt内核加速比对比
5.4.4 解质量分析
5.4.5 与现有的高性能GPU局部搜索算法比较
5.5 本章小结
6 基于CPU-GPU协同并行图像卷积算法
6.1 引言
6.2 相关工作
6.2.1 基于卷积的滤波器
6.2.2 CPU向量指令
6.2.3 CPU-GPU异构架构及其融合
6.2.4 OpenCL异构系统协同机制
6.3 CPU-GPU协同卷积算法
6.3.1 图像分块化处理
6.3.2 基本CPU-GPU协同计算卷积方法
6.3.3 动态任务分配
6.3.4 与现有算法的区别和优势
6.4 实验结果与分析
6.4.1 基于STA的算法性能评价
6.4.2 基于DTA的算法性能评价
6.4.3 与基于OpenCV的GPU卷积算法比较
6.5 本章小结
7 总结与展望
7.1 本文工作总结
7.2 研究展望
中外文参考文献
攻博期间发表的科研成果目录
致谢
【参考文献】:
期刊论文
[1]基于CUDA的图像预处理并行化研究[J]. 占正锋,李戈,张学贺,尹旭悦. 机械与电子. 2014(07)
[2]基于GPU的现代并行优化算法[J]. 张庆科,杨波,王琳,朱福祥. 计算机科学. 2012(04)
[3]基于OpenCL的图像模糊化算法优化研究[J]. 张樱,张云泉,龙国平. 计算机科学. 2012(03)
[4]基于OpenMP多核架构下并行蚁群算法研究[J]. 赵辉,徐俊刚. 微型机与应用. 2011(16)
[5]一种基于GPU加速的细粒度并行蚁群算法[J]. 李建明,胡祥培,庞占龙,钱昆明. 控制与决策. 2009(08)
硕士论文
[1]基于CUDA的图像滤波技术研究[D]. 赵馨怡.西北师范大学 2014
[2]基于GPU的并行连续蚁群算法及其应用研究[D]. 王晨.南开大学 2014
[3]表面缺陷检测GPU并行图像处理技术[D]. 王成顺.合肥工业大学 2012
本文编号:3635950
【文章来源】:武汉大学湖北省211工程院校985工程院校教育部直属院校
【文章页数】:127 页
【学位级别】:博士
【文章目录】:
本文创新点
摘要
ABSTRACT
1 绪论
1.1 引言
1.2 研究背景
1.2.1 CPU/GPU架构改进
1.2.2 应用需求
1.2.3 国内外研究现状
1.2.4 面临的挑战
1.3 本文的主要研究工作及创新点
1.4 论文结构
2 并行处理器架构及并行优化算法
2.1 引言
2.2 多核CPU和众核GPU并行计算
2.2.1 并行计算
2.2.2 多核CPU体系结构
2.2.3 众核GPU体系架构
2.2.4 OpenCL并行编程模型
2.2.5 并行算法加速比
2.3 计算复杂性理论
2.3.1 最优化问题
2.3.2 算法复杂性
2.3.3 问题复杂性
2.4 并行元启发式算法
2.4.1 启发式算法
2.4.2 元启发式算法
2.4.3 元启发式算法并行模型
2.5 本章小结
3 基于动态策略的GPU并行蚁群算法
3.1 引言
3.2 蚁群算法介绍
3.3 基于动态策略的GPU并行蚁群算法
3.3.1 内核控制方法
3.3.2 并行优化策略
3.3.3 轮盘赌选择方法优化
3.3.4 路径创建阶段算法
3.3.5 算法描述
3.3.6 算法在GPU上的实现
3.3.7 时间复杂度分析
3.4 实验结果与分析
3.4.1 实验设置
3.4.2 优化初始工作组配置
3.4.3 KE-ALL和KE-ONE内核性能比较
3.4.4 动态工作组内核性能评价
3.4.5 与现有的GPU蚁群算法比较
3.4.6 解质量评价
3.5 本章小结
4 基于多核SIMD CPU的蚁群算法
4.1 引言
4.2 相关工作
4.2.1 多核SIMD CPU
4.2.2 当前GPU蚁群的不足
4.3 基于多核SIMD CPU的并行蚁群算法
4.3.1 现有的并行蚁群模型
4.3.2 基于多核SIMD CPU的并行蚁群算法
4.3.3 路径创建阶段
4.3.4 信息素更新阶段
4.4 性能评价
4.4.1 基于多核SIMD CPU的路径创建算法评价
4.4.2 信息素更新内核评价
4.4.3 计算单元数量与内存带宽对性能的影响分析
4.4.4 算法在GPU上执行性能对比
4.4.5 与现有的高性能GPU蚁群算法对比
4.4.6 解质量验证
4.5 小结
5 基于GPU的迭代局部搜索算法并行优化
5.1 引言
5.2 相关工作
5.2.1 Roofline性能模型
5.2.2 迭代局部搜索算法
5.2.3 研究的意义
5.3 基于GPU的并行迭代局部搜索算法
5.3.1 并行迭代局部搜索算法设计
5.3.2 GPU上邻域结构映射策略
5.3.3 2-opt算子内核的性能分析
5.3.4 目前的优化方法分析
5.3.5 2-opt内核优化方法
5.4 性能评价
5.4.1 线程配置优化
5.4.2 2-opt内核的实际浮点性能分析
5.4.3 2-opt内核加速比对比
5.4.4 解质量分析
5.4.5 与现有的高性能GPU局部搜索算法比较
5.5 本章小结
6 基于CPU-GPU协同并行图像卷积算法
6.1 引言
6.2 相关工作
6.2.1 基于卷积的滤波器
6.2.2 CPU向量指令
6.2.3 CPU-GPU异构架构及其融合
6.2.4 OpenCL异构系统协同机制
6.3 CPU-GPU协同卷积算法
6.3.1 图像分块化处理
6.3.2 基本CPU-GPU协同计算卷积方法
6.3.3 动态任务分配
6.3.4 与现有算法的区别和优势
6.4 实验结果与分析
6.4.1 基于STA的算法性能评价
6.4.2 基于DTA的算法性能评价
6.4.3 与基于OpenCV的GPU卷积算法比较
6.5 本章小结
7 总结与展望
7.1 本文工作总结
7.2 研究展望
中外文参考文献
攻博期间发表的科研成果目录
致谢
【参考文献】:
期刊论文
[1]基于CUDA的图像预处理并行化研究[J]. 占正锋,李戈,张学贺,尹旭悦. 机械与电子. 2014(07)
[2]基于GPU的现代并行优化算法[J]. 张庆科,杨波,王琳,朱福祥. 计算机科学. 2012(04)
[3]基于OpenCL的图像模糊化算法优化研究[J]. 张樱,张云泉,龙国平. 计算机科学. 2012(03)
[4]基于OpenMP多核架构下并行蚁群算法研究[J]. 赵辉,徐俊刚. 微型机与应用. 2011(16)
[5]一种基于GPU加速的细粒度并行蚁群算法[J]. 李建明,胡祥培,庞占龙,钱昆明. 控制与决策. 2009(08)
硕士论文
[1]基于CUDA的图像滤波技术研究[D]. 赵馨怡.西北师范大学 2014
[2]基于GPU的并行连续蚁群算法及其应用研究[D]. 王晨.南开大学 2014
[3]表面缺陷检测GPU并行图像处理技术[D]. 王成顺.合肥工业大学 2012
本文编号:3635950
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3635950.html