GPU上的同步机制及图匹配方法研究
发布时间:2024-06-02 06:20
近年来,海量多源异构数据急剧增长,数据表现形式变得更加复杂。数据规模的不断增大,使得传统CPU硬件平台的存储和计算能力远不能满足应用需求。GPU的出现可使这些问题在一定程度上得到解决,但对于GPU底层硬件而言,很难实现全局同步操作。图数据具有灵活、强大的表示能力,图匹配作为图上的一种基本操作,被广泛应用于各个领域。研究基于GPU众核平台上的线程同步及高效、精准的图匹配方法,具有重要的理论研究意义及实际应用价值。本文基于GPU众核平台,研究线程块间的宽松同步机制以及不同评价标准下的图匹配方法,主要的研究内容如下:(1)GPU上线程块间同步问题的研究。目前GPU上线程块间的同步操作主要借助CPU实现,大量CPU与GPU之间数据的传输,使得此方法效率较低,不能满足某些对时间要求较严格的实际应用的需求。本文针对该问题,提出了一种基于信号量的GPU设备上的宽松同步机制,旨在实现GPU上线程块间的直接同步操作,可减少CPU与GPU之间频繁的数据传输,提升整体计算效率。实验中针对单源最短路径,验证了该宽松同步机制的有效性。(2)基于图编辑距离评价的图匹配方法研究。在明晰图编辑距离与置换矩阵的基础上,...
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
本文编号:3986979
【文章页数】:73 页
【学位级别】:硕士
【部分图文】:
图2-2CPU与GPU架构对比图
ectX10GPU的出现,使得通用计算图形)开始被较多的科研工作者应用。但GPGPU编程性低;序开发难度大。两处弊端,传统的GPGPU未能被开发人点,提高其可用性,在一些研究学者的基础计算设备架构编程模型(即CUDA),旨在充
图2-3grid,block与thread三者之间关系图
该block被划分成大小为32的线程调度单元。因此,在实际编程过程中,线程块中线程的个数推荐使用32的倍数,以便更高效的利用资源。GPU线程以grid的形式组织,每个grid中包含若干线程块,即SMs。同一block中的众多thread具有相同的指....
图2-5未经过转置的矩阵乘法运算的部分线程分布图
Cache命中失效。对后者矩阵进行转置,可解决上述问题lano[36]研究发现在同一block中的所有线程,若相邻的线程能够依顺序连续读取物理内存上相邻位置的数值,则GPU上读取内存数大减少。在CUDA应用程序中,block中的线程分布如图2-5所示需要读取矩....
图2-6经转置之后的矩阵乘法运算的部分线程分布图
涉及到的与图相关的几个定义,又阐述GPU硬件平台,GPU上U上并行计算的映射方式做了简单
本文编号:3986979
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3986979.html