当前位置:主页 > 科技论文 > 计算机论文 >

类数据流驱动的分片式处理器体系结构

发布时间:2021-01-23 04:11
  纳米工艺代微处理器设计中存在的功耗、线延迟和设计复杂度等问题严重地制约了传统的程序执行模型和处理器体系结构的发展。分片式处理器体系结构就是为了应对这些挑战性问题而产生的,其基本思想是将计算、存储和互连资源组织成片式的基本结构单元,这些片式单元是相对简单的、分布式控制且可重用的;大量的片式单元由高能效、可扩展的片上网络连接起来构成高效能的处理器。这种体系结构避免了片上长线延迟的产生,能够充分利用摩尔定律发展带来的丰富而廉价的晶体管资源,获得系统性能的提升。但目前分片式处理器体系结构还处于初级研究阶段,有许多关键技术值得探讨。本文分别从分片式处理器的程序执行模型和体系结构两个方面开展了深入的研究。主要研究内容和成果包括:(1)研究了类数据流计算模型的原理,提出了一种适于分片式处理器体系结构的类数据流驱动程序执行模型。在该程序执行模型中,由编译器将串行程序划分成一系列包含几十至上百条指令的超块;程序的执行以超块为原子单位进行取指、执行和提交。超块内部的计算采用数据流表示,用数据流图作为机器语言,向硬件显式表达指令间的并行性,无需硬件动态检测依赖,从而降低了硬件设计的复杂性;超块间采用控制流表... 

【文章来源】:中国科学技术大学安徽省 211工程院校 985工程院校

【文章页数】:174 页

【学位级别】:博士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景
        1.1.1 半导体工艺发展对处理器体系结构的影响
        1.1.2 分片式处理器及研究意义
    1.2 分片式处理器体系结构设计中的关键问题
        1.2.1 处理器核的粒度
        1.2.2 适应不同并行性应用的能力
        1.2.3 程序执行模型
        1.2.4 处理单元间的互连
    1.3 论文研究目标和主要工作
    1.4 论文结构
第2章 分片式处理器的相关研究工作
    2.1 RAW和TILE64
        2.1.1 执行模型
        2.1.2 RAW体系结构
        2.1.3 TILE64体系结构
    2.2 Smart Memories
        2.2.1 执行模型
        2.2.2 Smart Memories体系结构
    2.3 TRIPS和TFLEX
        2.3.1 执行模型
        2.3.2 TRIPS体系结构
        2.3.3 TFLEX体系结构
    2.4 WaveScalar
        2.4.1 执行模型
        2.4.2 WaveCache体系结构
    2.5 Multiscalar
        2.5.1 执行模型
        2.5.2 Multiscalar体系结构
    2.6 分片式处理器体系结构发展趋势总结
第3章 类数据流驱动的程序执行模型
    3.1 冯·诺依曼计算模型的局限性
        3.1.1 自身的局限性
        3.1.2 冯·诺依曼结构在多核时代的问题
    3.2 数据流驱动的执行
        3.2.1 数据流执行的原理
        3.2.2 数据流图
        3.2.3 数据流模型的结构及分类
        3.2.4 数据流计算模型分析
    3.3 类数据流计算模型的原理
        3.3.1 混合式计算模型的分类
        3.3.2 早期的混合数据流机制
        3.3.3 程序中的数据流局部性分析
        3.3.4 类数据流计算模型
    3.4 类数据流驱动的程序执行模型
        3.4.1 超块结构
        3.4.2 类数据流驱动的程序执行模型
        3.4.3 类数据流驱动程序执行模型中的数据通信
    3.5 一种类数据流驱动执行的指令集体系结构DISC-I
        3.5.1 指令集概述
        3.5.2 显式目标编码
    3.6 编译支持
    3.7 小结
第4章 类数据流驱动的分片式处理器体系结构设计空间分析
    4.1 类数据流驱动的分片式处理器体系结构抽象模型
        4.1.1 微体系结构概述
        4.1.2 全局控制单元CT
        4.1.3 执行单元ET
        4.1.4 寄存器单元RT
        4.1.5 一级指令Cache IT和一级数据Cache DT
        4.1.6 片上互连网络
    4.2 基于超块的激进执行模型分析
        4.2.1 基于控制流的激进执行模型分析
        4.2.2 基于数据流的激进执行模型分析
        4.2.3 小结
    4.3 片上互连拓扑结构分析
        4.3.1 互连拓扑结构设计方案
        4.3.2 拓扑结构性能评价指标
        4.3.3 实验结果及分析
        4.3.4 小结
    4.4 数据预取机制分析
        4.4.1 数据预取算法
        4.4.2 类数据流驱动程序执行模型中的数据预取
        4.4.3 仿真实验结果及分析
        4.4.4 小结
    4.5 分片式处理器设计方案优化
        4.5.1 应用在类数据流驱动程序执行模型上的特征分析
        4.5.2 分片式处理器体系结构设计的优化思想
    4.6 小结
第5章 TPA-PI:一种类数据流驱动的分片式处理器体系结构
    5.1 引言
    5.2 TPA-PI处理器体系结构概述
        5.2.1 TPA-PI处理器体系结构
        5.2.2 分布式的执行控制
    5.3 功能部件4FU设计
        5.3.1 基本流水线
        5.3.2 流水线的数据通路
    5.4 控制模块
        5.4.1 逻辑功能描述
        5.4.2 控制流转移预测
        5.4.3 控制系统设计
    5.5 寄存器模块Reg
        5.5.1 Reg微体系结构
        5.5.2 执行机制
    5.6 指令Cache
        5.6.1 逻辑功能描述
        5.6.2 块头指令Cache
        5.6.3 常规指令Cache
    5.7 内数据Cache
        5.7.1 分布式的Load/Store队列
        5.7.2 分布式的访存依赖预测器
    5.8 片上互连网络
        5.8.1 操作数网络
        5.8.2 其它网络
    5.9 小结
第6章 TPA-PI处理器的性能评测
    6.1 应用开发环境
        6.1.1 软硬件环境
        6.1.2 TPA-PI软件模拟器的实现
    6.2 TPA-PI性能评测
        6.2.1 基本模型评测
        6.2.2 激进执行对TPA-PI性能的影响
        6.2.3 发射宽度和指令窗口对TPA-PI性能的影响
        6.2.4 操作数网络对TPA-PI性能的影响
        6.2.5 与超标量处理器的比较
        6.2.6 TPA-PI的性能提升潜力
    6.3 小结
第7章 全文总结
    7.1 研究工作和成果
    7.2 主要创新
    7.3 进一步的工作
参考文献
致谢
在读期间发表的学术论文与取得的研究成果
在读期间参与的科研项目


【参考文献】:
期刊论文
[1]数据流计算机[J]. 陈国良.  计算机研究与发展. 1984(09)
[2]一种新的体系结构——数据流计算机[J]. 李国杰.  电子计算机动态. 1981(11)



本文编号:2994521

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2994521.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1ad84***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com