基于并行处理单元的代码优化方法研究
发布时间:2021-01-28 02:53
与传统DSP相比,现代DSP采用更多的ILP技术以提高机器性能。本文讨论的DSP采用分簇的VLIW体系结构,能够在单个时钟周期同时执行多个操作。本文先讨论这款DSP代码优化器的构造方法,之后对TI TMS320DM642给出了代码优化器的具体实现。VLIW DSP代码优化器在LCC编译器框架基础上实现。首先用LCC作为编译前端得到中间代码,然后对中间代码进行模版注释得到目标机器指令相对应的程序,最后对其进行簇分配和调度,同时分配寄存器和功能单元,得到优化的并行汇编代码。我们为VLIW DSP定制它的机器规格说明和机器描述,书写代码生成规则的iburg规范文本,并由iburg规范自动生成代码优化器中的指令选择部分。这样提高了VLIW DSP的代码优化器的可重定目标性。VLIW DSP体系结构的一个显著特点是分簇,与这一特点相对应,代码生成的一个重要步骤是簇分配,即为每个操作及其操作数映射合适的簇。簇分配应使得各簇的功能单元得到充分利用,并设法减少簇之间的数据传递。本文讨论了簇分配的常用算法和LIST调度算法,最后给出统一的簇分配与调度算法(UAS)针对VLIW DSP的实现。该算法的特点...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 引言
1.1.1 课题背景
1.1.2 研究现状
1.1.3 研究内容
1.2 本文贡献
1.3 论文结构
第二章 VLIW DSP体系结构
2.1 VLIW体系结构
2.1.1 VLIW的特点
2.1.2 VLIW技术的发展
2.1.3 VLIW结构的编译方法
2.2 VLIW DSP的数据通路
2.2.1 通用寄存器文件
2.2.2 功能单元
2.2.3 交叉通路
2.2.4 存储访问通路
2.2.5 资源约束小结
2.3 流水线和指令延迟
2.4 取指包和执行包
2.5 条件执行
第三章 VLIW DSP代码优化器的设计
3.1 代码优化器总体设计框架
3.1.1 概述
3.1.2 代码优化器的工作环境
3.2 优化器前端
3.2.1 LCC概述
3.2.2 数据结构
3.3 与目标机器无关的代码生成接口
3.3.1 接口概述
3.3.2 接口标记
3.3.3 接口函数
3.3.4 接口绑定
3.4 优化器后端
3.4.1 基于iburg自动代码生成
3.4.2 后端接口函数的实现
3.4.3 机器无关的寄存器分配
第四章 机器规格说明和机器描述
4.1 机器规格说明
4.1.1 函数参数传递
4.1.2 运行栈的组织
4.2 机器描述
4.2.1 格式信息
4.2.2 资源信息
4.2.3 延时信息
4.3 TI TMS320DM642机器描述
4.3.1 TMS320DM642指令集
4.3.2 TMS320DM642寻址方式
4.3.3 TMS320DM642机器描述
第五章 簇分配和调度方法研究及其实现
5.1 概述
5.2 簇分配算法
5.2.1 BUG
5.2.2 A.Capitanio等人的方法
5.2.3 Partial Component Clustering(PCC)
5.2.4 R.Leupers的方法
5.2.5 基于区域的分级划分(RHOP)
5.2.6 簇分配算法的四个特征
5.3 LIST调度算法
5.4 USA算法
5.4.1 UAS算法介绍
5.4.2 UAS算法的实现
5.5 实验分析
第六章 总结与展望
6.1 结论
6.2 进一步工作
参考文献
致谢
硕士期间发表论文目录
本文编号:3004225
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 引言
1.1.1 课题背景
1.1.2 研究现状
1.1.3 研究内容
1.2 本文贡献
1.3 论文结构
第二章 VLIW DSP体系结构
2.1 VLIW体系结构
2.1.1 VLIW的特点
2.1.2 VLIW技术的发展
2.1.3 VLIW结构的编译方法
2.2 VLIW DSP的数据通路
2.2.1 通用寄存器文件
2.2.2 功能单元
2.2.3 交叉通路
2.2.4 存储访问通路
2.2.5 资源约束小结
2.3 流水线和指令延迟
2.4 取指包和执行包
2.5 条件执行
第三章 VLIW DSP代码优化器的设计
3.1 代码优化器总体设计框架
3.1.1 概述
3.1.2 代码优化器的工作环境
3.2 优化器前端
3.2.1 LCC概述
3.2.2 数据结构
3.3 与目标机器无关的代码生成接口
3.3.1 接口概述
3.3.2 接口标记
3.3.3 接口函数
3.3.4 接口绑定
3.4 优化器后端
3.4.1 基于iburg自动代码生成
3.4.2 后端接口函数的实现
3.4.3 机器无关的寄存器分配
第四章 机器规格说明和机器描述
4.1 机器规格说明
4.1.1 函数参数传递
4.1.2 运行栈的组织
4.2 机器描述
4.2.1 格式信息
4.2.2 资源信息
4.2.3 延时信息
4.3 TI TMS320DM642机器描述
4.3.1 TMS320DM642指令集
4.3.2 TMS320DM642寻址方式
4.3.3 TMS320DM642机器描述
第五章 簇分配和调度方法研究及其实现
5.1 概述
5.2 簇分配算法
5.2.1 BUG
5.2.2 A.Capitanio等人的方法
5.2.3 Partial Component Clustering(PCC)
5.2.4 R.Leupers的方法
5.2.5 基于区域的分级划分(RHOP)
5.2.6 簇分配算法的四个特征
5.3 LIST调度算法
5.4 USA算法
5.4.1 UAS算法介绍
5.4.2 UAS算法的实现
5.5 实验分析
第六章 总结与展望
6.1 结论
6.2 进一步工作
参考文献
致谢
硕士期间发表论文目录
本文编号:3004225
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3004225.html