以数据为中心的多核处理器软硬件协同优化关键技术研究

发布时间:2018-05-17 01:10

  本文选题:片上多核处理器 + 以数据为中心 ; 参考:《清华大学》2016年博士论文


【摘要】:未来的超大规模计算系统设计面临着两个很重要的挑战:能效性和以数据为中心的应用负载。片上多核处理器作为构成未来超大规模计算系统的基础之一,其设计和应用也需要向“低功耗高能效”和“以数据为中心“的需求转变。本文采用”以数据为中心“的设计思想,从片上多核处理器设计和应用的多个层面出发,使用软硬件协同优化设计的方法,以应用驱动设计,来提高片上多核处理器的能效性、并行扩展性和对不同应用的适应性。具体而言,在处理器内核层面,针对目标应用从计算和数据两个方面进行定制化设计和软硬件协同优化;在片上多核处理器多核互连层面,实现了硬件支持的片上消息传递机制;在片上多核处理器并行编程模式层面,针对不规则应用提出一种“计算趋近数据”的计算模式,提高了不规则应用在片上多核处理器上的计算性能和并行扩展性,并降低了功耗;最后,在多线程调度层面,提出了“以数据为中心”的推测多线程调度机制。本文的主要创新点包括:1.针对Stencil计算,采用将常规的软硬件优化手段跟基于目标应用定制设计相结合的思路,从一个简单可定制核开始,构建了一个低功耗高能效的处理内核。设计中使用了一系列软硬件结合的优化方法,提高了计算并行性和数据传输效率,减少了数据传输。2.针对片上多核处理器的片上消息传输机制设计了专门的消息引擎负责片上消息传递,并完成了消息引擎RTL级的实现。本文从减少数据无效复制、提高大消息传输效率、降低复杂通信开销三个方面对片上多核处理器的片上消息传输机制进行了优化。3.针对不规则应用在片上多核处理器上的执行瓶颈和挑战,提出In Place计算模式,实现计算向数据的趋近。通过减少数据在片上的移动,提高了处理器的执行效率;通过“划分”和“代理”机制避免了对不规则数据的竞争访问;通过构建“核间流水”提高了并行度和对带宽的利用。对于典型不规则应用在片上多核处理器上的执行,In Place模式提高了性能和并行扩展性,并降低了功耗。4.针对片上多核处理器单线程性能弱的问题,在片上多核处理器上实现了“兼容性”的推测多线程机制,能够利用片上空闲资源提升单线程能力。针对线程数据在片上多核处理器片上的不均匀分布,提出了“以数据为中心”的推测多线程调度机制,有效地提升了推测多线程机制在片上多核处理器上的执行效能。
[Abstract]:There are two important challenges to the design of large scale computing systems in the future: energy efficiency and data-centric application load. As one of the foundations of the future large scale computing system, the design and application of on-chip multi-core processors need to be changed to the requirements of "low power, high energy efficiency" and "data-centric". In this paper, we adopt the idea of "data as the center", proceed from the multi-level design and application of multi-core processors on a chip, use the method of hardware and software co-optimization design to improve the energy efficiency of multi-core processors on a chip by using the application-driven design. Parallel expansibility and adaptability to different applications. Specifically, at the processor kernel level, customization design and hardware / software co-optimization are carried out for the target application from two aspects of calculation and data. The mechanism of on-chip messaging supported by hardware is implemented, and a computing mode of "computing approaching data" is proposed for irregular applications at the level of parallel programming mode of multi-core processors on a chip. The computing performance and parallel expansibility of irregular applications on multi-core processors are improved, and the power consumption is reduced. Finally, at the multi-thread scheduling level, a "data-centric" speculated multithread scheduling mechanism is proposed. The main innovations of this paper include: 1. For Stencil computing, a low power and high energy efficient processing kernel is constructed by combining conventional software and hardware optimization methods with object-based application customization design, starting with a simple customizable kernel. In the design, a series of optimization methods combining software and hardware are used to improve the computing parallelism and data transmission efficiency, and reduce the data transmission. 2. A special message engine is designed to deliver message on a chip for the message transfer mechanism of multi-core processor on a chip, and the RTL level of message engine is implemented. This paper optimizes the on-chip message transmission mechanism of multi-core processors on a chip from three aspects: reducing invalid data replication, improving the efficiency of large message transmission, and reducing the complexity of communication overhead. Aiming at the bottleneck and challenge of irregular application in multi-core processor, in Place computing mode is proposed to realize the convergence of computing to data. By reducing the movement of data on the chip, the processor's execution efficiency is improved; the competing access to irregular data is avoided through "partitioning" and "proxy" mechanisms; and the parallelism and bandwidth utilization are improved by constructing "inter-core pipelining". For typical irregular applications in Place mode, the performance and parallelism are improved, and the power consumption is reduced. In order to solve the problem of low performance of single thread in multi-core processor on a chip, the "compatibility" mechanism of multi-thread is implemented on the chip, which can enhance the single-thread capability by using the free resources on the chip. Aiming at the uneven distribution of thread data on the multi-core processor chip, a data-centric scheduling mechanism is proposed, which effectively improves the performance of the speculated multi-thread mechanism on the multi-core processor.
【学位授予单位】:清华大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TP332

【相似文献】

相关期刊论文 前10条

1 许珊琳;;多核处理器——计算领域的又一次革命[J];中国集成电路;2006年05期

2 张洋;;虞志益:引领多核处理器创新之路[J];中国发明与专利;2013年01期

3 羽路;;多核处理器悄然崛起[J];集成电路应用;2005年05期

4 ;多核处理器强调多任务并行处理[J];每周电脑报;2006年35期

5 冯磊;;多核处理器的数量裸奔[J];信息系统工程;2006年11期

6 张浩;兰峰;;多核处理器基本原理及其在汽车领域中应用的展望[J];汽车科技;2007年03期

7 何军;王飙;;多核处理器的结构设计研究[J];计算机工程;2007年16期

8 肖红;;基于多核处理器系统开发中的几个问题[J];广东广播电视大学学报;2007年04期

9 张健浪;;三大于二,多核CPU之田忌赛马[J];新电脑;2008年06期

10 都思丹;;前言:嵌入式多核处理器系统及视频信号处理技术研究进展[J];南京大学学报(自然科学版);2009年01期

相关会议论文 前10条

1 郭建军;戴葵;王志英;;一种多核处理器存储层次性能评估模型[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年

2 彭林;张小强;刘德峰;谢伦国;田祖伟;;一种挖掘多核处理器存储级并行的算法[A];第15届全国信息存储技术学术会议论文集[C];2008年

3 刘杰;马彦;叶维;高剑刚;;多核处理器存储体系分析[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年

4 潘送军;胡瑜;李晓维;;多核处理器瞬态故障敏感性分析[A];第五届中国测试学术会议论文集[C];2008年

5 万志涛;章恒;张若渊;;基于多核处理器的深度包检测的实现和性能评估[A];中国通信学会信息通信网络技术委员会2009年年会论文集(上册)[C];2009年

6 方娟;张红波;;多核处理器预取策略的研究[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年

7 何军;王飙;;通用多核处理器发展现状和趋势研究[A];第十五届计算机工程与工艺年会暨第一届微处理器技术论坛论文集(A辑)[C];2011年

8 桂亚东;;高效能计算机技术展望[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(下)[C];2007年

9 万志涛;;基于多核处理器的面向时延敏感服务的云基础架构[A];中国通信学会信息通信网络技术委员会2011年年会论文集(上册)[C];2011年

10 陈远知;;多核处理器的里程碑——TILE64[A];全国第三届信号和智能信息处理与应用学术交流会专刊[C];2009年

相关重要报纸文章 前10条

1 记者 曹继军 颜维琦;我国多核处理器研究实现新突破[N];光明日报;2012年

2 庆广;多核处理器助力无线多媒体业务拓展[N];中国电子报;2009年

3 北京大学计算语言所副所长 詹卫东;多核服务器:计算优势更上层楼[N];计算机世界;2005年

4 北京大学计算语言所副所长 詹卫东;双/多核服务器 计算优势更上层楼[N];网络世界;2005年

5 江南计算技术研究所 何正未;软件滞后制约多核应用[N];计算机世界;2006年

6 李梅 编译;多核处理器新年井喷[N];计算机世界;2007年

7 英特尔产品与平台市场部门数字家庭市场经理 庄淳杰;多核将大行其道[N];计算机世界;2007年

8 本报记者 陈斌;多核处理器的未来路径[N];计算机世界;2008年

9 王悦承;Oracle改变多核定价模式[N];中国计算机报;2006年

10 ;多核:技术无悬念应用待拓展[N];计算机世界;2008年

相关博士学位论文 前10条

1 柴松;片上多核处理器的调度算法研究[D];电子科技大学;2014年

2 付桂涛;面向多核处理器的令牌一致性协议优化技术研究[D];国防科学技术大学;2014年

3 易娟;面向多核处理器系统的可靠性与能耗优化调度研究[D];重庆大学;2016年

4 吴琼;多核平台软件算法优化的研究[D];吉林大学;2017年

5 李艳华;以数据为中心的多核处理器软硬件协同优化关键技术研究[D];清华大学;2016年

6 王淼;面向多核处理器的并行编译及优化关键技术研究[D];国防科学技术大学;2010年

7 王树朋;基于仿真的多核处理器功能验证技术研究[D];浙江大学;2017年

8 魏海涛;面向多核处理器的数据流程序编译关键技术研究[D];华中科技大学;2010年

9 吕海;多核处理器芯片计算平台中并行程序性能优化的研究[D];北京工业大学;2012年

10 李建华;片上多核处理器缓存子系统优化的研究[D];中国科学技术大学;2013年

相关硕士学位论文 前10条

1 秦培斌;基于多核路由器的加密卡驱动系统设计与实现[D];西南交通大学;2015年

2 张请;多核处理器关键技术研究[D];复旦大学;2014年

3 陈帅军;基于国产多核处理器核级冗余静态绑定和动态绑定机制的研究[D];哈尔滨工业大学;2015年

4 罗成;基于多核处理器的高速数码印花机数据传输处理系统硬件设计[D];浙江大学;2015年

5 宦维祥;基于众核的多租户网络出访问控制的研究[D];复旦大学;2013年

6 杨杭军;基于多核处理器的视频编解码并行算法研究[D];南京大学;2013年

7 吴熙;JPEG压缩编码在嵌入式多核处理器上的优化技术研究[D];武汉纺织大学;2015年

8 王宗炎;基于OVP的多核处理器系统级建模与评估[D];复旦大学;2014年

9 范少华;多核处理器映射关键技术研究[D];复旦大学;2014年

10 裘凯;多核处理器映射关键技术研究[D];复旦大学;2014年



本文编号:1899226

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1899226.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f2319***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com