面向高密度计算的多核处理器结构研究
【学位单位】:中国科学技术大学
【学位级别】:博士
【学位年份】:2011
【中图分类】:TP332
【文章目录】:
摘要
ABSTRACT
目录
图目录
表目录
第1章 绪论
1.1 研究背景
1.1.1 微处理器在高性能计算中的应用
1.1.2 微处理器发展现状
1.2 本文研究的问题及意义
1.3 国内外研究现状
1.4 本文研究内容及论文组织
第2章 面向高密度计算的相关研究工作
2.1 几种面向高密度计算的处理器结构
2.1.1 Cell处理器
2.1.2 TRIPS处理器
2.1.3 Intel core i7处理器
2.1.4 GPU处理器结构
2.1.5 Godson-3号处理器
2.1.6 计算/访存分离的处理器结构模型
2.2 性能分析相关研究
2.2.1 现有的性能分析方法
2.2.2 稀疏矩阵向量乘法性能模型
2.2.3 矩阵乘法性能模型
2.3 矩阵乘法的相关研究工作
2.3.1 单核矩阵乘法相关工作
2.3.2 多核矩阵乘法相关工作
2.4 小结
第3章 矩阵乘法性能模型
3.1 矩阵乘法划分方法
3.2 单核性能模型
3.2.1 单核性能模型的建立
3.2.2 处理器结构参数优化分析
3.3 多核性能模型
3.4 性能模型的验证
3.4.1 Intel core i7上的性能模型验证
3.4.2 Godson-3A上的性能模型验证
3.5 小结
3.6 附录
3.6.1 引理3.1的证明
3.6.2 定理3.1的证明
3.6.3 定理3.2的证明
3.6.4 定理3.3的证明
第4章 多核处理器结构优化
4.1 一种乘加-shuffle融合的浮点向量指令
4.2 一种计算/访存分离的处理器结构
4.2.1 新的计算/访存分离的处理器结构介绍
4.2.2 访存协处理器
4.2.3 访存协处理器的带宽测试
4.3 基于性能模型对Godson-3B进行评估
4.4 小结
第5章 Godson-3B上的矩阵乘法
5.1 高效的单核矩阵乘法
5.1.1 GEBP核心循环实现方法
5.1.2 寄存器层的访存优化
5.1.3 L2 cache层的访存优化
5.2 多核矩阵乘法
5.3 实验结果和分析
5.3.1 实验平台介绍
5.3.2 不同寄存器分组下的核心性能测试
5.3.3 与性能模型预测值的对比
5.3.4 GEBP核心循环中时间开销分布统计
5.3.5 与其它处理器的比较
5.4 小结
第6章 结论
6.1 本文工作总结
6.2 进一步工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果
在读期间参与的科研项目
【参考文献】
相关期刊论文 前7条
1 李忠泽,陈瑾,龙翔,李未;基于 Pentium Pro 的高性能 BLAS 的设计与实现[J];北京航空航天大学学报;1998年04期
2 蒋孟奇;张云泉;宋刚;李玉成;;GOTOBLAS一般矩阵乘法高效实现机制的研究[J];计算机工程;2008年07期
3 乔香珍;Cache性能与程序优化[J];计算机学报;1996年11期
4 高翔;陈云霁;王焕东;唐丹;胡伟武;;System Architecture of Godson-3 Multi-Core Processors[J];Journal of Computer Science & Technology;2010年02期
5 江建慧;嵌入式系统性能评估的基准程序方法[J];机械与电子;2002年04期
6 夏培肃,胡伟武;高性能计算技术展望[J];中国科学院院刊;1998年05期
7 李玉成,朱鹏;BLAS的加速方法与实现技术[J];数值计算与计算机应用;1998年03期
相关博士学位论文 前4条
1 张福新;微处理器性能分析与优化[D];中国科学院研究生院(计算技术研究所);2005年
2 马可;微处理器性能分析模型的建立和研究[D];中国科学技术大学;2007年
3 高翔;多核处理器的访存模拟与优化技术研究[D];中国科学技术大学;2007年
4 徐光;分片式流处理器体系结构[D];中国科学技术大学;2010年
相关硕士学位论文 前3条
1 梅小露;高性能通用处理器中浮点乘加部件的设计[D];中国科学院研究生院(计算技术研究所);2005年
2 谭彩凤;基于计算智能应用映射的GPU体系结构研究[D];国防科学技术大学;2009年
3 梁娟娟;基于GPU的BLAS库的设计和实现[D];中国科学技术大学;2010年
本文编号:2828081
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2828081.html