基于龙芯3B处理器的Linpack优化实现
本文选题:计算机系统结构 + 龙芯B处理器 ; 参考:《深圳大学学报(理工版)》2014年03期
【摘要】:HPL是高性能计算广泛采用的Linpack测试软件包.针对龙芯3B处理器体系结构的特点,为Linpack中的核心部分——矩阵乘法设计矩阵分块策略,利用龙芯3B的cache锁机制将频繁调用的数据分块锁在cache中,从而显著降低cache缺失率.同时为龙芯3B处理器中的访存加速部件设计了高效的预取算法,以实现计算时间掩盖访存时间.另外,分别对Linpack所调用的dtrsm和行交换等热点函数进行优化,并通过参数训练来优化Linpack参数.实验结果表明,在龙芯3B处理器上,单节点4核以及双节点8核的Linpack实测性能均达到理论峰值的60%左右,优化后的Linpack性能较优化前提升了10倍左右.
[Abstract]:HPL is a widely used Linpack test software package for high performance computing. According to the characteristics of the architecture of Ronson 3B processor, matrix partitioning strategy is designed for matrix multiplication, which is the core part of Linpack. The frequently invoked data block is locked in cache by using the cache locking mechanism of Ronson 3B, thus significantly reducing the cache deletion rate. At the same time, an efficient prefetching algorithm is designed for the memory access acceleration part of the Godson 3B processor to realize the computation of time masking memory access time. In addition, the hot functions such as dtrsm and row exchange called by Linpack are optimized, and the parameters of Linpack are optimized by parameter training. The experimental results show that the measured Linpack performance of single-node 4-core and two-node 8-core on Ronson 3B processor reaches about 60% of the theoretical peak, and the optimized Linpack performance is about 10 times higher than that before optimization.
【作者单位】: 深圳大学计算机与软件学院 广东省普及型高性能计算机实验室;
【基金】:国家高技术研究发展计划资助项目(2012AA01A30904) 广东省院士工作站建设项目(2012B090500020)~~
【分类号】:TP332
【参考文献】
相关期刊论文 前6条
1 李文龙,刘利,汤志忠;软件流水中的循环展开优化[J];北京航空航天大学学报;2004年11期
2 张文力;陈明宇;樊建平;;HPL测试性能仿真与预测[J];计算机研究与发展;2006年03期
3 陈国良;蔡晔;罗秋明;;国产个人高性能计算机系统研制[J];深圳大学学报(理工版);2011年06期
4 蔡晔;刘刚;毛睿;罗秋明;陈国良;;KD-90普及型个人高性能计算机系统设计与性能优化[J];深圳大学学报(理工版);2013年02期
5 何颂颂;顾乃杰;朱海涛;刘燕君;;面向龙芯3A体系结构的BLAS库优化[J];小型微型计算机系统;2012年03期
6 朱海涛;陈云霁;钱诚;王玲;胡伟武;;基于向量扩展多核处理器的矩阵乘法算法优化研究[J];中国科学技术大学学报;2011年02期
【共引文献】
相关期刊论文 前10条
1 万晓姣;;基于linux系统集群的架构与实现[J];电子世界;2012年10期
2 李铮;薛质;;基于Linux的高性能集群的构建和性能优化[J];信息技术;2012年03期
3 郭淑婷;;DSP汇编语言优化设计[J];河南师范大学学报(自然科学版);2009年01期
4 陈坚祯;阳平;李斌;沈丹平;;多核并行计算下的流量传感器流场模拟研究[J];衡阳师范学院学报;2011年06期
5 孟金涛;贺鹏程;刘涛;;Nehalem平台的Linpack参数训练与优化[J];华中科技大学学报(自然科学版);2010年S1期
6 周国建;吴少刚;李祖松;史岗;;基于四阶段人工优化的软件流水技术[J];计算机工程;2009年05期
7 高一波;丁亚平;于美丽;;杜利特尔算法在条件优化中的应用[J];计算机与应用化学;2009年11期
8 严历;郭力;;三维宏观拟颗粒模拟程序计算代码优化研究与实现[J];计算机与应用化学;2009年12期
9 马晓静;;一种雷达信号处理机的软件设计[J];雷达与对抗;2012年01期
10 王申;漆锋滨;谷洪峰;潘治;;Linpack并行性能模型及其预测[J];计算机工程;2012年16期
相关博士学位论文 前5条
1 陈坚祯;一种新型多电极插入式电磁流量传感器及其基础研究[D];上海大学;2009年
2 朱虎明;基于集群计算的免疫优化算法及其应用研究[D];西安电子科技大学;2010年
3 廖银;动态二进制翻译建模及其并行化研究[D];中国科学技术大学;2013年
4 张志敏;化学计量学算法实现的软件开发基础研究[D];中南大学;2012年
5 贾海鹏;面向GPU计算平台的若干并行优化关键技术研究[D];中国海洋大学;2012年
相关硕士学位论文 前10条
1 马庆怀;基于CPU与GPU混合架构集群的性能测试与优化[D];中国地质大学(北京);2011年
2 刘灏;基于NiosⅡ的光纤熔接机图像测量及软件系统设计[D];西北大学;2011年
3 沈旭;无人机灭火控制系统及其关键技术研究[D];长安大学;2011年
4 韩永杰;LLVM编译系统结构分析及ARCA3后端移植[D];哈尔滨工业大学;2010年
5 许玉婷;GPS同步算法的ASIP实现[D];哈尔滨工业大学;2010年
6 李铮;基于Linux的小型高性能集群的研究和优化[D];上海交通大学;2012年
7 史建国;X10语言机制研究和实现优化[D];国防科学技术大学;2011年
8 余小喜;面向嵌入式系统的迭代式循环展开优化[D];国防科学技术大学;2011年
9 马萌;面向程序访存特征的存储优化技术研究[D];国防科学技术大学;2011年
10 周正;HCO网络操作系统的Cx51实现[D];合肥工业大学;2006年
【二级参考文献】
相关期刊论文 前6条
1 蔡晔;史岗;;基于锁的Cache一致性协议的硬件优化策略[J];高技术通讯;2009年09期
2 陈国良;蔡晔;罗秋明;;国产个人高性能计算机系统研制[J];深圳大学学报(理工版);2011年06期
3 张俊霞;张焕杰;李会民;;基于龙芯2F的国产万亿次高性能计算机KD-50-I的研制[J];中国科学技术大学学报;2008年01期
4 孙凝晖;陈国良;;PHPC:一种普及型高性能计算机[J];中国科学技术大学学报;2008年07期
5 顾乃杰;李凯;陈国良;吴超;;基于龙芯2F体系结构的BLAS库优化[J];中国科学技术大学学报;2008年07期
6 张俊霞;李春生;张焕杰;;KD-50-I-E:一台增强型高性能计算机[J];中国科学技术大学学报;2009年08期
【相似文献】
相关期刊论文 前10条
1 沈绪榜;嵌入式MPP处理器的发展[J];电子产品世界;2005年21期
2 于永斌;徐洁;吴晓华;王华;丁旭阳;;多核时代的“计算机系统结构”课程[J];计算机教育;2011年06期
3 罗沛霖;罗晋;凯睿;Steve Novack;Victor Berman;;混合式可重构数字多核并行处理器平台[J];前沿科学;2008年04期
4 ;通过FLIX指令结构提高可配置处理器计算性能[J];电子设计技术;2006年02期
5 许珊琳;;ARM公司的多处理技术[J];中国集成电路;2006年05期
6 ;龙芯2号增强型处理器Loongson2E[J];中国集成电路;2008年02期
7 王莹;;Wind River为Altera软核NiosII提供Linux支持[J];电子产品世界;2009年04期
8 郭从征;王沁;;低速率声码器芯片设计[J];河北工业大学成人教育学院学报;2005年04期
9 赵德斌,陈耀强,胡良校;Feig快速DCT算法及其处理器的体系结构设计[J];计算机研究与发展;1998年12期
10 Peter Coffee;;快不是唯一标准[J];每周电脑报;1999年44期
相关会议论文 前10条
1 彭林;张小强;刘德峰;谢伦国;田祖伟;;一种挖掘多核处理器存储级并行的算法[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 陈虎;欧彦麟;陈海波;;面向多核处理器平台的并行Hash JOIN算法设计与实现[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 陈虎;罗伟良;干芸芸;;Multi_MINT:一个基于MINT的多核处理器模拟器[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(B辑)[C];2011年
4 何军;王飙;;通用多核处理器发展现状和趋势研究[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
5 周巍;孙冰;战立明;吕建华;王国仁;于戈;;基于DOM模型的XML查询处理器的设计与实现[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
6 王海鹏;倪远平;;U-boot在mini2440平台上的移植方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
7 胡杏;胡瑜;李晓维;;基于存储级并行的同时多线程电压紧急容错技术[A];第十四届全国容错计算学术会议(CFTC'2011)论文集[C];2011年
8 王庆;季振洲;刘涛;;面向嵌入式多核存储层次的OpenMP优化研究[A];2010年第16届全国信息存储技术大会(IST2010)论文集[C];2010年
9 李勇;刘胜;甄体智;;C64x+DSP内核分析及其性能评价[A];第15届全国信息存储技术学术会议论文集[C];2008年
10 张民选;;前言[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年
相关重要报纸文章 前10条
1 本报记者 温庆生 特约记者 王握文;“算盘王国”新传奇[N];光明日报;2010年
2 学健 编译;Linux:一种趋势[N];计算机世界;2001年
3 心元;PC“心脏”的搏击[N];计算机世界;2004年
4 本报记者 汤铭;“天河一号” 跃居世界榜首[N];计算机世界;2010年
5 ;Microsoft Embeded OS缩小的桌面系统[N];中国计算机报;2001年
6 本报记者 薛仁 王握文 特约通讯员 司宏伟;超越之路[N];解放军报;2010年
7 本报记者 张群英;10年布局IBM豪赌“一种服务器”[N];网络世界;2002年
8 ;HP为Itanium提供Linux开发工具包[N];计算机世界;2000年
9 井之;新一代安腾处理器[N];网络世界;2002年
10 本报记者 向利 实习记者 孙冠杰;“天河”因自主创新而腾飞[N];中国知识产权报;2010年
相关博士学位论文 前10条
1 徐光;分片式流处理器体系结构[D];中国科学技术大学;2010年
2 孙涛;面向动态异构众核处理器的任务调度研究[D];中国科学技术大学;2013年
3 刘德峰;面向存储级并行的多核处理器关键技术研究[D];国防科学技术大学;2011年
4 李静梅;多核处理器的设计技术研究[D];哈尔滨工程大学;2010年
5 朱海涛;面向高密度计算的多核处理器结构研究[D];中国科学技术大学;2011年
6 刘谷;可重构众核流处理器上的编译与程序优化技术[D];中国科学技术大学;2013年
7 陈虎;面向应用的指令集处理器关键技术研究[D];国防科学技术大学;2011年
8 黄立波;片上集群体系结构关键技术研究[D];国防科学技术大学;2010年
9 张惠臻;可重构指令集处理器设计中的软件重定向关键技术研究[D];中国科学技术大学;2010年
10 许牧;可重构众核流处理器体系结构关键技术研究[D];中国科学技术大学;2012年
相关硕士学位论文 前10条
1 赵丽丽;基于TTA内核的流处理器设计的研究[D];上海交通大学;2010年
2 董珍;异构多核处理器的任务调度分配问题及算法研究[D];哈尔滨工程大学;2010年
3 尤凯迪;高性能低功耗多核处理器研究[D];复旦大学;2011年
4 钟松延;可配置可扩展处理器编译器设计[D];天津大学;2012年
5 刘子扬;基于虚拟计算群的众核处理器动态在线任务调度算法研究[D];上海交通大学;2013年
6 盛肖炜;多核处理器内部核间通信研究[D];沈阳理工大学;2013年
7 董正杨;乱序处理器指令吞吐量平稳化的动态调节方法研究[D];华中科技大学;2012年
8 闵银皮;同构通用流多核处理器存储部件关键技术研究[D];国防科学技术大学;2012年
9 叶新栋;一种Java处理器的体系结构设计与研究[D];复旦大学;2011年
10 马媛;基于多核处理器平台的分流模块的设计与实现[D];北京交通大学;2012年
,本文编号:1915787
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/1915787.html