超标量嵌入式处理器关键技术设计研究
发布时间:2020-10-15 02:23
随着嵌入式应用日新月异,高性能低功耗的嵌入式处理器是未来嵌入式系统的重要需求。超标量技术通过单周期多指令并行发射、执行和退休,有效提升处理器性能,已成为当前高端嵌入式处理器技术发展的新趋势。本文重点研究超标量嵌入式处理器若干高性能低功耗关键技术,主要研究内容和创新点包括: 1、无延时分支预测和低功耗分支折合机制。提出了一种通过全局预测历史索引分支历史表的无延时分支预测方法,解决超标量流水线全局分支历史别名问题。根据短循环取指特性提出基于指令缓冲区中已发射指令回收利用的循环分支折合技术。在出现循环分支时从动态开辟的指令回收区内回收循环体指令,消除分支性能损失并降低取指功耗。 2、具有快速退休功能的非阻塞投机乱序执行机制。动态分配保留站的非阻塞发射机制解决数据相关性对指令发射的影响。基于投机标志的乱序执行方法消除控制相关性对流水线阻塞,并在分支预测错误时快速恢复指令预取现场补偿性能损失。通过一种由运算单元控制寄存器回写的快速退休机制,解决长延时指令执行对主流水线退休的阻塞。 3、片上存储器高性能低功耗技术。提出指令Cache行内访问低功耗模式和后向分支跳转下的低功耗技术。基于访问请求缓冲的非阻塞流水线技术解决数据Cache访问冲突。在SPM设计中,引入两种工作模式、提出处理器和DMA任务级并行机制及SPM扩展方法。并在SPM基础上实现快速硬件堆栈,支持程序无缝切换。 4、通用协处理器扩展技术。通用协处理器指令实现基本指令集到扩展指令集的信息交互,解决16位指令集扩展难题。进一步提出了同步和异步工作模式、非精确异常下指令级并行技术和支持优先级的中断响应机制等优化方法。 5、基于数据通路不可观察性(ODC)的RTL级门控时钟优化算法。在门控条件提取算法中引入总线和短路径计算模型,有效降低运算负荷。在门控时钟综合算法中,引入通路ODC概率作为门控逻辑综合的重要依据,优先优化门控概率高的数据通路,提高门控网络的效率。 6、提出了面向对象的处理器时钟精确模型设计方法,将流水线建模为结构与功能模型,通过结构模型对功能模型的调度实现快速重构,高效支持流水线设计空间搜索。在此基础上进一步提出了通过时间域和空间域仿真压缩加速SoC功能验证的处理器快速仿真模型设计方法。 本文提出的关键技术对于超标量嵌入式处理器提升性能、降低功耗、增加扩展能力等方面具有积极的作用。
【学位单位】:浙江大学
【学位级别】:博士
【学位年份】:2009
【中图分类】:TP368.1
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 嵌入式处理器发展现状及关键技术
1.2.1 ARM系列嵌入式处理器及其关键技术
1.2.2 MIPS系列嵌入式处理器及其关键技术
1.2.3 Xtensa系列嵌入式处理器及其关键技术
1.3 嵌入式处理器技术发展趋势
1.3.1 超标量技术
1.3.2 超长指令字技术
1.3.3 多线程技术
1.4 论文的技术路线
1.5 论文的研究基础
1.6 论文研究内容和组织结构
第2章 无延时分支预测与基于指令回收的分支折合
2.1 无延时的分支预测技术设计研究
2.1.1 分支预测的相关研究
2.1.2 分支预测在超标量流水线中遇到的问题
2.1.3 无延时分支预测机制
2.2 基于指令回收的分支折合技术设计研究
2.2.1 分支折合技术的相关研究回顾
2.2.2 基于指令回收的循环分支折合
2.2.3 动态自适应指令回收窗口
2.2.4 循环分支折合的盲区检测
2.2.5 循环分支折合对性能的提升
2.3 本章小结
第3章 基于投机的乱序执行机制的设计研究
3.1 超标量流水线冲突问题分析
3.2 传统硬件投机执行机制回顾
3.3 基于动态保留站分配的非阻塞发射机制
3.4 基于投机标志的乱序执行机制
3.5 快速退休机制
3.6 本章小结
第4章 片上存储器及硬件堆栈设计研究
4.1 低功耗指令Cache
4.2 非阻塞数据Cache
4.3 片上高性能低功耗SPM及可扩展技术
4.4 基于SPM的高性能低功耗硬件堆栈
4.4.1 数据堆栈编程模型
4.4.2 数据堆栈硬件框架
4.4.3 数据堆栈两级缓冲机制
4.4.4 硬件返回地址栈设计
4.4.5 实验与分析
4.5 本章小结
第5章 通用协处理器接口设计研究
5.1 通用协处理器接口指令集
5.2 协处理器接口的同步和异步工作模式
5.3 非精确异常下的指令级并行技术
5.4 动态可配置的协处理器中断优先级
5.5 本章小结
第6章 基于门控时钟的低功耗优化算法研究
6.1 数据通路低功耗相关研究
6.2 RTL级低功耗优化算法原理
6.3 低功耗优化算法实现
6.4 实验结果分析
6.5 本章小结
第7章 时钟精确模型及其SoC快速仿真模型研究
7.1 面向对象的时钟精确仿真模型设计方法
7.2 加速SoC逻辑仿真的快速时钟精确模型设计方法
7.2.1 基于时间和空间仿真压缩算法原理
7.2.2 快速仿真模型实现
7.2.3 快速仿真模型仿真结果分析
7.3 本章小结
第8章 总结与展望
8.1 论文研究工作总结
8.2 今后工作的展望
参考文献
攻读学位期间发表/录用的学术论文
攻读学位期间授权的发明专利
【引证文献】
本文编号:2841545
【学位单位】:浙江大学
【学位级别】:博士
【学位年份】:2009
【中图分类】:TP368.1
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 研究背景与意义
1.2 嵌入式处理器发展现状及关键技术
1.2.1 ARM系列嵌入式处理器及其关键技术
1.2.2 MIPS系列嵌入式处理器及其关键技术
1.2.3 Xtensa系列嵌入式处理器及其关键技术
1.3 嵌入式处理器技术发展趋势
1.3.1 超标量技术
1.3.2 超长指令字技术
1.3.3 多线程技术
1.4 论文的技术路线
1.5 论文的研究基础
1.6 论文研究内容和组织结构
第2章 无延时分支预测与基于指令回收的分支折合
2.1 无延时的分支预测技术设计研究
2.1.1 分支预测的相关研究
2.1.2 分支预测在超标量流水线中遇到的问题
2.1.3 无延时分支预测机制
2.2 基于指令回收的分支折合技术设计研究
2.2.1 分支折合技术的相关研究回顾
2.2.2 基于指令回收的循环分支折合
2.2.3 动态自适应指令回收窗口
2.2.4 循环分支折合的盲区检测
2.2.5 循环分支折合对性能的提升
2.3 本章小结
第3章 基于投机的乱序执行机制的设计研究
3.1 超标量流水线冲突问题分析
3.2 传统硬件投机执行机制回顾
3.3 基于动态保留站分配的非阻塞发射机制
3.4 基于投机标志的乱序执行机制
3.5 快速退休机制
3.6 本章小结
第4章 片上存储器及硬件堆栈设计研究
4.1 低功耗指令Cache
4.2 非阻塞数据Cache
4.3 片上高性能低功耗SPM及可扩展技术
4.4 基于SPM的高性能低功耗硬件堆栈
4.4.1 数据堆栈编程模型
4.4.2 数据堆栈硬件框架
4.4.3 数据堆栈两级缓冲机制
4.4.4 硬件返回地址栈设计
4.4.5 实验与分析
4.5 本章小结
第5章 通用协处理器接口设计研究
5.1 通用协处理器接口指令集
5.2 协处理器接口的同步和异步工作模式
5.3 非精确异常下的指令级并行技术
5.4 动态可配置的协处理器中断优先级
5.5 本章小结
第6章 基于门控时钟的低功耗优化算法研究
6.1 数据通路低功耗相关研究
6.2 RTL级低功耗优化算法原理
6.3 低功耗优化算法实现
6.4 实验结果分析
6.5 本章小结
第7章 时钟精确模型及其SoC快速仿真模型研究
7.1 面向对象的时钟精确仿真模型设计方法
7.2 加速SoC逻辑仿真的快速时钟精确模型设计方法
7.2.1 基于时间和空间仿真压缩算法原理
7.2.2 快速仿真模型实现
7.2.3 快速仿真模型仿真结果分析
7.3 本章小结
第8章 总结与展望
8.1 论文研究工作总结
8.2 今后工作的展望
参考文献
攻读学位期间发表/录用的学术论文
攻读学位期间授权的发明专利
【引证文献】
相关博士学位论文 前2条
1 殷燎;面向SoC的IP核及嵌入式处理器功能验证方法研究[D];浙江大学;2010年
2 陈晨;处理器条件分支指令处理关键技术研究[D];浙江大学;2013年
相关硕士学位论文 前6条
1 冷冰;基于路访问轨迹和路休眠的高速缓存低功耗研究[D];浙江大学;2012年
2 鄢传钦;基于资源重用的嵌入式处理器指令发射机制研究[D];浙江大学;2012年
3 童鼎;基于WN6102的音频技术研究与优化[D];杭州电子科技大学;2013年
4 陈磊;基于CK-CPU嵌入式平台的LCD显示驱动的开发与实现[D];哈尔滨工业大学;2013年
5 张荣生;基于处理器CK610的音频解码系统设计[D];哈尔滨工业大学;2013年
6 薛佳音;基于CK-CPU嵌入式平台的Linux系统移植与USB驱动开发[D];哈尔滨工业大学;2012年
本文编号:2841545
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2841545.html