基于SMP集群的性能优化方法的研究
发布时间:2023-12-08 20:33
80年代初的Intel 8088微处理器,运行在4.77MHz的频率之上。二十多年过去了,目前市面上最快的微处理器Intel XERO 3.8GHz的速度比那个时候提高了600多倍。 今天的软件比起以前那些仅仅基于文本界面的简单应用要复杂多了而且还集成了更多功能。从游戏软件,商业软件到用于科学计算的软件,它们需要使用比以前更多的计算机资源,而且对于它们来说,目前的资源还远远不够。一个应用程序的性能完全取决于程序员是如何实现它的特性或者如何去解决这个应用的。高度优化的应用能够在速度上数十倍于性能很差的应用。使用一个优秀的算法和非常好的设计去实现它能够带来软件性能上质的变化。 本文以一个优化相关器为例子来说明性能优化的方法学及其重要性。 21CMA利用综合孔径成像原理,把天线采集的电压信号进行快速傅立叶变换后再做相关运算,获得复可见度函数,再分析成图。采集的数据量相当大(每天约1.38PB),要求现场作相关运算,这样可把每天存储数据量压缩至890GB(假设积分10秒存盘一次),且得到了数据分析所需的最小单位。以往被正式应用的相关器都是在硬件上实现的,存在着开发周期长...
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
第一章 项目背景
1.1 课题的来源和意义:
1.2 主要任务
1.3 国内外研究现状:
第二章 SMP集群
2.1 集群
2.1.1 集群的概念
2.1.2 集群的重要指标
2.2 对称多处理器(SMP,Symmetrical Multi-Processing)
2.3 Infiniband
2.4 Linux
2.5 21CMA集群的优化
2.5.1 优化策略
2.5.2 不同实现方法的比较
2.5.3 使用Intel C Compiler
2.5.4 Linux 2.6.12内核带来的性能变化
第三章 性能优化方法的探讨
3.1 性能优化的必要性
3.2 性能优化方法的分析与讨论
3.3 使用正确的工具
3.3.1 Intel VTune performance Analyzer
3.3.2 Intel Performance Primitives
3.3.3 Intel Thread Check
3.3.4 Intel Thread Profiler
第四章 MPI+OpenMP混合编程模型的实现
4.1 MPI
4.2 OpenMP:基于命令的并行编程标准
4.3 OpenMP+MPI混合编程模式
4.3.1 混合编程模式的实现
4.3.2 OpenMP+MPI混合编程模式的优缺点分析比较
4.4 实际的测试以及结果分析
4.4.1 实验基本环境
4.4.2 Jacobi迭代实验
4.4.3 通信与计算重叠实验
4.4.4 试验结果分析
4.5 混合模型对于21CMA的优化
第五章 相关器的优化
5.1 相关算法的理论依据
5.2 21CMA相关器的数据流程
5.3 相关器主要部分的优化
5.3.1 FFT模块的优化
5.3.2 相关计算模块的优化策略
5.3.3 相关模块的优化过程
5.3.4 利用Cache重用原则
第六章 结束语
6.1 目前数据分析成图的成果
6.2 集群规模扩大
6.3 未来工作的展望
参考文献
致谢
本文编号:3871105
【文章页数】:56 页
【学位级别】:硕士
【文章目录】:
第一章 项目背景
1.1 课题的来源和意义:
1.2 主要任务
1.3 国内外研究现状:
第二章 SMP集群
2.1 集群
2.1.1 集群的概念
2.1.2 集群的重要指标
2.2 对称多处理器(SMP,Symmetrical Multi-Processing)
2.3 Infiniband
2.4 Linux
2.5 21CMA集群的优化
2.5.1 优化策略
2.5.2 不同实现方法的比较
2.5.3 使用Intel C Compiler
2.5.4 Linux 2.6.12内核带来的性能变化
第三章 性能优化方法的探讨
3.1 性能优化的必要性
3.2 性能优化方法的分析与讨论
3.3 使用正确的工具
3.3.1 Intel VTune performance Analyzer
3.3.2 Intel Performance Primitives
3.3.3 Intel Thread Check
3.3.4 Intel Thread Profiler
第四章 MPI+OpenMP混合编程模型的实现
4.1 MPI
4.2 OpenMP:基于命令的并行编程标准
4.3 OpenMP+MPI混合编程模式
4.3.1 混合编程模式的实现
4.3.2 OpenMP+MPI混合编程模式的优缺点分析比较
4.4 实际的测试以及结果分析
4.4.1 实验基本环境
4.4.2 Jacobi迭代实验
4.4.3 通信与计算重叠实验
4.4.4 试验结果分析
4.5 混合模型对于21CMA的优化
第五章 相关器的优化
5.1 相关算法的理论依据
5.2 21CMA相关器的数据流程
5.3 相关器主要部分的优化
5.3.1 FFT模块的优化
5.3.2 相关计算模块的优化策略
5.3.3 相关模块的优化过程
5.3.4 利用Cache重用原则
第六章 结束语
6.1 目前数据分析成图的成果
6.2 集群规模扩大
6.3 未来工作的展望
参考文献
致谢
本文编号:3871105
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/3871105.html