YHFT-Matrix DSP取指部件设计实现与多指令流扩展
发布时间:2023-04-23 13:39
随着VLSI技术的发展,芯片能够集成越来越多的计算资源。设计高效的取指系统,保证芯片内部大量运算单元的指令供给,是提高芯片计算性能的有效途径。本文设计并实现了YHFT-Matrix DSP的取指系统,针对非规整数据级并行提出指令混洗机制,并采用指令混洗机制实现了YHFT-Matrix DSP的多指令流扩展。本文的主要工作和贡献体现在以下几个方面: 首先,根据执行流水线的取指需求,设计了取指流水线和一级程序Cache。取指部件添加4个地址缓冲,实现非阻塞模式,以减轻取指流水线暂停对执行流水线的负面影响。一级程序Cache设置了两个状态机分别处理取指和派发部件的请求,并优先响应派发部件的请求,尽量降低跨边界执行包丢失时的开销。并对取指部件和一级程序Cache进行了系统的模拟验证和对YHFT-Matrix DSP进行前端综合和关键路径优化。 其次,分析传统SIMD结构开发非规整DLP低效的原因,据此提出指令混洗机制和指令混洗微体系结构。指令混洗机制通过软硬件协同的方式,同时为多个SIMD LANE提供多个不同的指令流,实现SIMD结构对非规整DLP的高效支持。合并响应和合并缓存机制进一步提升...
【文章页数】:91 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 DSP 发展历史和趋势
1.1.2 取指流水化
1.1.3 移动通信和多媒体应用的发展
1.1.4 SIMD 结构蓬勃发展
1.2 相关研究
1.2.1 取指部件和一级程序Cache 的相关研究
1.2.2 SIMD 结构开发非规整DLP 的相关研究
1.3 目标体系结构:YHFT-Matrix DSP
1.4 本文的主要工作和主要研究内容
1.4.1 本文的主要工作
1.4.2 本文的组织结构
第二章 取指部件和一级程序Cache 设计与实现
2.1 取指部件和L1P 功能概述
2.2 取指流水线设计
2.2.1 流水站设计
2.2.2 双分支通道
2.2.3 地址缓冲
2.3 一级程序Cache 设计
2.3.1 L1P 与其它模块交互
2.3.2 映像规则和替换策略
2.3.3 L1P 内部状态机
2.4 本章小结
第三章 模拟验证与综合
3.1 功能模拟验证
3.1.1 覆盖率驱动的验证
3.1.2 模拟验证环境和方法
3.1.3 模拟验证
3.2 综合优化
3.2.1 关键路径分析
3.2.2 优化方法
3.2.3 优化结果
3.3 本章小结
第四章 SIMD 结构的多指令流扩展
4.1 指令混洗微体系结构
4.1.1 传统SIMD 结构的限制
4.1.2 指令混洗基本思想
4.1.3 指令混洗微体系结构
4.2 指令混洗工作过程
4.2.1 程序映射与编译处理
4.2.2 动态执行
4.2.3 执行优化方案
4.3 YHFT-Matrix DSP 的多指令流扩展
4.3.1 指令预取单元
4.3.2 向量分支指令执行单元
4.3.3 指令存储器
4.3.4 指令混洗单元
4.3.5 挂起缓冲
4.4 本章小结
第五章 性能分析与评估
5.1 模拟验证
5.2 硬件实现开销
5.3 性能评估
5.3.1 算法分析
5.3.2 执行结果
5.4 本章小结
第六章 结束语
6.1 论文工作总结
6.2 下一步的研究工作
致谢
参考文献
作者在学期间取得的学术成果
本文编号:3799828
【文章页数】:91 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景
1.1.1 DSP 发展历史和趋势
1.1.2 取指流水化
1.1.3 移动通信和多媒体应用的发展
1.1.4 SIMD 结构蓬勃发展
1.2 相关研究
1.2.1 取指部件和一级程序Cache 的相关研究
1.2.2 SIMD 结构开发非规整DLP 的相关研究
1.3 目标体系结构:YHFT-Matrix DSP
1.4 本文的主要工作和主要研究内容
1.4.1 本文的主要工作
1.4.2 本文的组织结构
第二章 取指部件和一级程序Cache 设计与实现
2.1 取指部件和L1P 功能概述
2.2 取指流水线设计
2.2.1 流水站设计
2.2.2 双分支通道
2.2.3 地址缓冲
2.3 一级程序Cache 设计
2.3.1 L1P 与其它模块交互
2.3.2 映像规则和替换策略
2.3.3 L1P 内部状态机
2.4 本章小结
第三章 模拟验证与综合
3.1 功能模拟验证
3.1.1 覆盖率驱动的验证
3.1.2 模拟验证环境和方法
3.1.3 模拟验证
3.2 综合优化
3.2.1 关键路径分析
3.2.2 优化方法
3.2.3 优化结果
3.3 本章小结
第四章 SIMD 结构的多指令流扩展
4.1 指令混洗微体系结构
4.1.1 传统SIMD 结构的限制
4.1.2 指令混洗基本思想
4.1.3 指令混洗微体系结构
4.2 指令混洗工作过程
4.2.1 程序映射与编译处理
4.2.2 动态执行
4.2.3 执行优化方案
4.3 YHFT-Matrix DSP 的多指令流扩展
4.3.1 指令预取单元
4.3.2 向量分支指令执行单元
4.3.3 指令存储器
4.3.4 指令混洗单元
4.3.5 挂起缓冲
4.4 本章小结
第五章 性能分析与评估
5.1 模拟验证
5.2 硬件实现开销
5.3 性能评估
5.3.1 算法分析
5.3.2 执行结果
5.4 本章小结
第六章 结束语
6.1 论文工作总结
6.2 下一步的研究工作
致谢
参考文献
作者在学期间取得的学术成果
本文编号:3799828
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3799828.html