当前位置:主页 > 科技论文 > 计算机论文 >

龙芯UNCACHE加速原理及其在系统图形性能优化中的应用

发布时间:2019-08-11 16:45
【摘要】:针对当前采用独立显卡的桌面计算机系统架构普遍存在的CPU(中心处理单元)访问GPU(图形处理单元)存储空间数据传输延迟较大的瓶颈,采用了龙芯GS464处理器核心实现的UA(uncache acceleration)机制对GPU驱动程序中的GPU存储空间访问接口进行优化,极大地提高了处理器向GPU等IO存储空间连续数据写入的速度。详细分析了龙芯处理器UA机制的原理及其相对于uncache方式IO写所能带来的性能提升。通过UA机制优化了龙芯3A+2H平台的GPU驱动性能,x11perf测试结果显示,采用UA优化GPU驱动后,Xserver的一些接口性能提升达5%~230%。将龙芯处理器的UA机制封装到了标准MMAP系统调用,并通过该扩展后的系统调用优化了Xserver的Xvideo扩展接口,实验结果显示,播放常见较高分辨率视频时该接口性能能够有6~12倍的性能提升。
【图文】:

处理器,平台,访问方式,逻辑结构


逡逑芯3A邋+2H平台的图形驱动和图像接口优化也取得逦性能改进。逡逑了显著的性能提升。逡逑本文对如下内容进行了描述和分析:龙芯逦1邋龙芯GS464处理器核UA机制逡逑GS464处理器核心UA硬件的实现机制;UA的加速逡逑机制,以及UA和uncache两种机制下GPU存储写逦龙芯GS464处理器核心实现了类似于MIPS逡逑入速度差异的量化方式对比;对龙芯平台Linux核邋R10000处理器的UA机制,该机制的逻辑结构如逡逑的存储映射(memory邋map,邋MMAP)系统的调用及邋图1所示。GS464处理器核实现了两个与MIPS逡逑UA功能扩展;实验用龙芯3A+2H互联平台;采用逦R10000相同的32字节的UA缓冲器人口(imcache逡逑UA邋扩展的邋MMAP邋系统调用后龙芯,,3A邋+邋2H邋平台邋accelerate邋Wffer邋entry,UABE),与邋MIPS邋R10000邋处逡逑GPU存储空间写入与uncache方式的性能差异;3A逦理器4项FIFO等待队列不同,GS464处理器核实现逡逑+邋2H平台GPU驱动进行UA改造前后的图形应用逦了邋8项FIFO等待队列。逡逑程序编程接口(API)性能提升;采用UA扩展的逡逑小十邋>i<逦邋大.]■邋逦'逡逑?邋5cycle邋]逦200cycle逦|逡逑f逦[逦逦r逦逦逦;逦I逡逑|逦|逦逦邋;逦?逡逑GS464逦j逦UA逦|逦;逡逑i逦Buffer逦==1邋1逦!逦J逡逑!逦i逦Entry邋0逦j__逦邋:逦i逡逑111邋逦逡逑指令提交队列邋逦邋j逦GPU存储单元逡逑I逦1逦Lv曰邋/A邋丁写完■成邋一"一邋

优化对比,实验平台,空间,控制器


个简单的软件同步就可以对原有接逦成,其中一级交叉总线AXI连接了邋4个作为主设备逡逑口进行UA优化。逦的GS464处理器核,作为主从设备的HT控制器以逡逑及4个作为从设备的二级CACHE模块,二级交叉逡逑4邋UA与uncache对比实验平台逦开关则主要连接了作为主设备的4个二级CACHE逡逑模块与作为从设备的内存控制器(memorY邋control_逡逑本文的UA性能优化实验采用了龙芯3A邋+邋2H逦1?,MC)模块。龙芯3A的HT控制器通过板级总逡逑开发平台,该平台的逻辑结构如图4所示。其中龙逦线与龙芯2H的HT控制器连接形成数据通路。逡逑逦龙芯3A逦逡逑P0逦PI逦P2逦P3逦逦龙芯、2H逦逡逑V,逦/邋V逦V邋v逦v逦J逦,逦,邋_逦_逦I,逡逑n;逦山逦n}逦U/逦(逦\(逦\(逦\逡逑r-*逦^f—1逦——邋GS邋GPU邋PCIE逡逑AXI逦^[ht[:P==Z=2[邋HT邋464邋DC邋4X逡逑#0逦#1逦#2逦#3逦[逦 ̄逡逑L^L^JL^JL^J逦——^——逡逑X2逦 ̄1 ̄邋逦邋逦)( ̄邋 ̄逡逑逦^逦邋屮—逦MC邋AXI.MUX邋j[其他逡逑MC逦其他逦逡逑丨邋i逦-_」■逦+逦…-一逡逑'逦^逦GPU及DC显示内存逡逑系统主内存逦■.逦逦逦逦逡逑图4龙芯3A+2HUA优化对比实验平台逡逑龙芯2H芯片内部包含了一个VIVANTE逦销远大于本地存储空间访问的开销。逡逑GC1000邋GPU模块,下文所描述的GPU驱动即表示逡逑该GPU的驱动程序。该GPU与HT控制器以及显邋5邋GPU存
【作者单位】: 计算机体系结构国家重点实验室中国科学院计算技术研究所;中国科学院计算技术研究所;中国科学院大学;龙芯中科技术有限公司;
【基金】:国家“核高基”科技重大专项课题(2009ZX01028-002-003,2009ZX01029-001-003,2012ZX01029-001-002-002,2014ZX01020201) 国家自然科学基金(61221062,61232009,61222204,61432016)资助项目
【分类号】:TP332

【参考文献】

相关期刊论文 前2条

1 ;MPtostream:an OpenMP compiler for CPU-GPU heterogeneous parallel systems[J];Science China(Information Sciences);2012年09期

2 伍鸣;张福新;林伟;许先超;袁楠;王剑;;龙芯2号处理器系统优化关键技术[J];计算机研究与发展;2006年06期

相关硕士学位论文 前1条

1 林伟;Linux内存管理子系统在龙芯2号上的优化[D];中国科学院研究生院(计算技术研究所);2005年

【共引文献】

相关期刊论文 前4条

1 张爽爽;孟小甫;汪文祥;高翔;;龙芯UNCACHE加速原理及其在系统图形性能优化中的应用[J];高技术通讯;2015年04期

2 Xiangke LIAO;Liquan XIAO;Canqun YANG;Yutong LU;;MilkyWay-2 supercomputer: system and application[J];Frontiers of Computer Science;2014年03期

3 孟小甫;高翔;从明;张爽爽;;龙芯3A多核处理器系统级性能优化与分析[J];计算机研究与发展;2012年S1期

4 张晓辉;程归鹏;从明;;龙芯处理器上的TLB性能优化技术[J];计算机研究与发展;2011年S1期

相关硕士学位论文 前5条

1 姜力波;Linux内存管理分析与研究[D];电子科技大学;2011年

2 李婷;基于“龙芯”的卫星数字电视接收系统的研究与实现[D];中国石油大学;2010年

3 李恺;Glibc库在龙芯2F上的优化[D];中国科学技术大学;2010年

4 刘波;基于龙芯SIMD技术的RealVideo解码优化[D];中国石油大学;2008年

5 张荣亮;Linux操作系统内核分析与研究[D];江西师范大学;2007年

【相似文献】

相关会议论文 前2条

1 郭续胜;;白细胞精子症不育患者精浆UA、Zn的检测及意义[A];中华医学会第七次全国检验医学学术会议资料汇编[C];2008年

2 贺岩;李富荣;杜宗孝;朴文花;;血清BNP、hs-CRP、cTnI及UA联合检测对心力衰竭的临床价值[A];中华医学会第九次全国检验医学学术会议暨中国医院协会临床检验管理专业委员会第六届全国临床检验实验室管理学术会议论文汇编[C];2011年



本文编号:2525409

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2525409.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户7af0a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com