基于SIMD-DSP的LU分解算法的优化与实现
发布时间:2021-05-16 06:04
LU分解运算是密集型运算的经典算法,由于具有着广泛的应用范围和重要的应用价值,一直以来都处于核心地位。但是,当LU分解算法在SIMDDSP硬件平台上实现时仍会面临没有充分使用硬件运算单元与数据传输总线,内存访问冲突等问题,这些问题使得算法在硬件平台上的性能无法达到理想水平。由此可见,利用软件优化方法在硬件平台上实现LU分解依然值得研究。本课题基于国产SIMD架构的数字信号处理芯片BWDSP1042,设计具有高精度、高实时性的LU分解算法库。本文首先介绍了 BWDSP1042处理器的内核结构、流水线、内存空间分配与指令系统,深入理解硬件特点是优化与实现LU分解并行算法的前提。其次,阐述了C语言版LU分解函数的设计过程,构建了算法的主体框架与运行环境。最后研究了基于BWDWP1042的汇编版LU分解算法,消除了矩阵乘法运算过程中的非连续访存,充分利用硬件运算资源与数据传输总线,通过软件优化的方式,加快了循环中任务间的通信,减少了因通信带来的访存延时和访存冲突,进一步提升了LU分解算法的性能。本文给出了 LU分解算法研究的详细过程,并与主流高性能DSP芯片TMS320C...
【文章来源】:西安科技大学陕西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 课题研究背景及意义
1.2 研究现状
1.2.1 现有SIMD_DSP对并行运算的支持
1.2.2 LU分解算法在硬件平台中研究现状
1.3 本文主要工作与组织结构
2 关键技术及理论研究
2.1 BWDSP1042处理器
2.1.1 eC104+内核结构
2.1.2 BWDSP1042流水线
2.1.3 BWDSP1042指令系统
2.1.4 BWDSP1042内存空间分配
2.2 LU分解算法原理分析
2.3 本章小结
3 基于C函数库的LU分解算法设计
3.1 库函数设计
3.1.1 库函数设计内容
3.1.2 库函数设计指标
3.1.3 库函数设计流程
3.1.4 库函数编码规范
3.2 C语言版LU矩阵分解函数设计过程
3.3 LU矩阵分解函数C程序的仿真与验证
3.3.1 实验环境搭建
3.3.2 仿真结果与分析
3.4 本章小结
4 基于BWDSP1042 的汇编版LU分解算法优化
4.1 LU分解算法在BWDWP1042 中的优化
4.1.1 LU矩阵分解并行算法设计
4.1.2 LU矩阵分解在BWDSP1042 中的实现
4.2 LU矩阵分解函数在ECS中的编写与调用
4.3 LU矩阵分解算法理论周期与实际周期数
4.4 本课题LU矩阵分解算法与TMS320C6678内LU矩阵分解算法对比
4.4.1 周期与时间
4.4.2 误差
4.5 本章小结
5 结论与展望
5.1 结论
5.2 展望
致谢
参考文献
附录
本文编号:3189124
【文章来源】:西安科技大学陕西省
【文章页数】:64 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
1 绪论
1.1 课题研究背景及意义
1.2 研究现状
1.2.1 现有SIMD_DSP对并行运算的支持
1.2.2 LU分解算法在硬件平台中研究现状
1.3 本文主要工作与组织结构
2 关键技术及理论研究
2.1 BWDSP1042处理器
2.1.1 eC104+内核结构
2.1.2 BWDSP1042流水线
2.1.3 BWDSP1042指令系统
2.1.4 BWDSP1042内存空间分配
2.2 LU分解算法原理分析
2.3 本章小结
3 基于C函数库的LU分解算法设计
3.1 库函数设计
3.1.1 库函数设计内容
3.1.2 库函数设计指标
3.1.3 库函数设计流程
3.1.4 库函数编码规范
3.2 C语言版LU矩阵分解函数设计过程
3.3 LU矩阵分解函数C程序的仿真与验证
3.3.1 实验环境搭建
3.3.2 仿真结果与分析
3.4 本章小结
4 基于BWDSP1042 的汇编版LU分解算法优化
4.1 LU分解算法在BWDWP1042 中的优化
4.1.1 LU矩阵分解并行算法设计
4.1.2 LU矩阵分解在BWDSP1042 中的实现
4.2 LU矩阵分解函数在ECS中的编写与调用
4.3 LU矩阵分解算法理论周期与实际周期数
4.4 本课题LU矩阵分解算法与TMS320C6678内LU矩阵分解算法对比
4.4.1 周期与时间
4.4.2 误差
4.5 本章小结
5 结论与展望
5.1 结论
5.2 展望
致谢
参考文献
附录
本文编号:3189124
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3189124.html