面向程序访存特征的存储优化技术研究
发布时间:2020-09-19 15:54
性能的提高一直是计算机研究人员孜孜不倦追求的目标。随着大规模集成电路的发展,处理器的计算能力飞速提高。计算机性能提高的瓶颈由计算转变为存储。存储性能是程序访存特征和特定的存储结构共同作用的结果。程序访存特征的研究一直伴随着处理器的发展,为存储结构提供发展方向。 针对Cache结构不区分程序数据和主存物理实现一维连续的特征,本文选取具有典型访存特征的应用程序,通过分析访存特征给出合理的存储优化方案: 1)在共享Cache存储体系结构中,利用Simics+GEMS体系结构模拟器,分析基于PostgreSQL数据库在线事务处理不同数据集的访存特征,建立数据分类模型,将数据集划分为放弃型、保护型和自由竞争型三类;然后提出一种软件协同的半透明共享Cache结构区分对待三类数据集,实验结果证明Cache失效率最高下降率为12%。 2)针对矩阵行列访问二维连续的特征和DRAM存储一维连续的特性,提出一种针对行列交替访问的优化方案——窗口访问,并证明了最优窗口原理,利用可重构实验平台实现窗口访问存储控制器,实验证明矩阵行列交替访问的存储性能提高可达73.6%,一维FFT并行算法性能可提高45.1%。 3)基于窗口访问原理,指导CPU和GPU上矩阵数据的布局,优化矩阵行列交替访问程序,实验证明CPU中矩阵行列交替访问的存储性能最大提高58.4%,并实现窗口访问和FFTW结合的一维FFT并行算法,与FFTW相比计算性能提高可达7%;分析CUDA编程框架和相应GPU的结构特点,将窗口原理应用到GPU中以warp为单位的访存过程上,实验表明矩阵行列交替访问的存储性能提高了1倍。
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP333
【部分图文】:
在组相联和全相联 Cache 中,有多个 Cache 块供选择,就必须使用替换算法。主要的替换算法有随机法、先进先出法(First-In-First-Out,FIFO)、最近最少使用法(Least Recently Used,LRU)。随机法,顾名思义随机选择一个块替换出去;FIFO 替换最早调入的块;LRU 选择最近访问最少的块作为被替换出去的块。通过以上对 Cache 组织结构、替换算法的描述,可知提高 Cache 命中率的方法有:增加 Cache 容量,优化 Cache 组织结构,更加有效的替换算法,优化算法使存储访问更加连续;减少访存时间的方法有:多级 Cache,数据预取,根据算法特性优化数据放置。2.3.3 DRAM 的存储特点主存是存储层次中位于 Cache 下的一个层次,是数据输入的主要目的地和数据输入的发源地,用来满足 Cache 和 I/O 外设的请求。主存的性能主要通过延迟和贷款来衡量。DRAM 是一种高速动态随机访问的存储器,其工作速度和系统总线速度同步,支持高速总线时钟频率,内部逻辑结构如 2.2 所示[13][14][15]。
本文编号:2822704
【学位单位】:国防科学技术大学
【学位级别】:硕士
【学位年份】:2011
【中图分类】:TP333
【部分图文】:
在组相联和全相联 Cache 中,有多个 Cache 块供选择,就必须使用替换算法。主要的替换算法有随机法、先进先出法(First-In-First-Out,FIFO)、最近最少使用法(Least Recently Used,LRU)。随机法,顾名思义随机选择一个块替换出去;FIFO 替换最早调入的块;LRU 选择最近访问最少的块作为被替换出去的块。通过以上对 Cache 组织结构、替换算法的描述,可知提高 Cache 命中率的方法有:增加 Cache 容量,优化 Cache 组织结构,更加有效的替换算法,优化算法使存储访问更加连续;减少访存时间的方法有:多级 Cache,数据预取,根据算法特性优化数据放置。2.3.3 DRAM 的存储特点主存是存储层次中位于 Cache 下的一个层次,是数据输入的主要目的地和数据输入的发源地,用来满足 Cache 和 I/O 外设的请求。主存的性能主要通过延迟和贷款来衡量。DRAM 是一种高速动态随机访问的存储器,其工作速度和系统总线速度同步,支持高速总线时钟频率,内部逻辑结构如 2.2 所示[13][14][15]。
【参考文献】
相关期刊论文 前1条
1 朱海涛;陈云霁;钱诚;王玲;胡伟武;;基于向量扩展多核处理器的矩阵乘法算法优化研究[J];中国科学技术大学学报;2011年02期
相关博士学位论文 前2条
1 周杰;合成孔径雷达数据处理应用的细粒度并行算法与结构[D];国防科学技术大学;2010年
2 邓林;单芯片多核处理器存储优化技术研究[D];国防科学技术大学;2011年
相关硕士学位论文 前3条
1 李鑫;面向事务处理应用的多核共享存储体系结构性能评价[D];国防科学技术大学;2010年
2 雷元武;合成孔径雷达成像处理硬件加速器技术研究[D];国防科学技术大学;2007年
3 苏波;ATLAS在龙芯2F上的访存优化[D];中国科学技术大学;2009年
本文编号:2822704
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2822704.html