NCS成像算法的并行模型设计和优化
本文选题:雷达成像算法 + NCS算法 ; 参考:《南京大学》2014年硕士论文
【摘要】:SAR合成孔径雷达成像系统是先进的微波对地观察系统,经过几十年的发展,其用途已经渗透到科学和工程的各个领域。合成孔径雷达成像算法中基于FFT快速傅里叶变换的频域算法解决了与方位频率的相关性问题,但是不利于高分辨率、低频情况下的并行计算,其中NCS算法就是其中的一种。NCS成像算法对源数据的处理主要包括了FFT/IFFT和复数计算以及一些转置、倒序等等。本文介绍了并行计算及NCS算法实现所使用的多核系统架构,同时介绍了NCS算法的具体实现流程。对NCS算法的整体系统架构和运算簇、转置簇以及运算簇中的FFT模块进行了详细阐述。同时介绍了如PRAM等常用的并行计算模型,并对其性能进行了详细分析,为NCS算法的性能评测提供了理论基础。在具体设计上,本文介绍了在Linux环境下的NCS算法的具体实现。NCS算法中最重要的模块为FFT运算模块和矩阵转置模块,而FFT模块在计算过程中所耗费时间占整个程序的大部分,因此本文对于FFT模块的设计和实现进行了重点阐述。NCS算法模型是基于存储器精确的系统模型,存储精确的系统模型的特点是对于任意一个并行计算算法问题,需要在问题开始之前,对算法进行拆解,将所需要的结果以及中间数据人为的放在特定的内存地址中,达到存储级精确。好处是在问题后续修改中较为节省时间,缺点是初始阶段工作较多。在存储器精确方面,本文详细介绍了NCS算法实现过程中的存储器存储方式和数据搬运流程,实现了对存储器的精确控制。本文最后对已实现的NCS算法模型进行了部分优化。因为NCS算法模型的搭建目的是为硬件提供任务划分方案和提供中间数据,支持硬件系统后期调试,因此NCS算法的任务划分方案是否高效直接影响了硬件的最终实现过程和实现效率。优化部分我们采用了在虚拟机环境下,通过使用多线程技术,模拟实现了多核并行计算。同时,根据程序所用的时间,分析了在不同线程数目下程序的运行效率,这也从一方面为硬件提供了参考,说明在一定工作量的下,处理器核数并非越大越好,合理的任务划分和充分的处理器资源运用对一个多核系统来说至关重要。实验结果显示,优化前子孔径运行时间TFFT=89.1s,Tstart=5.5s,优化后Tsub=65.3s, TFFT=48.6s, Tstart=5.5s,优化加速比为1.39。系统中串行代码部分约占R=25.6%,因此其加速比极限为3.9。在实验条件下,不考虑算法逻辑和功耗要求,加速比极限为2.56,主要是由于实际条件下的优化无法完全忽略并行部分所需要的时间。目前项目已经完成了基于FPGA的原型演示系统的演示。
[Abstract]:SAR synthetic aperture radar imaging system is an advanced microwave to earth observation system. After decades of development, its use has penetrated into various fields of science and engineering. The frequency domain algorithm based on FFT fast Fourier transform in synthetic aperture radar imaging algorithm solves the problem of correlation with azimuth frequency, but it is not conducive to high resolution. In the low frequency parallel computing, NCS algorithm is one of the.NCS imaging algorithms for the source data processing mainly including FFT/IFFT and the complex number calculation and some transposed, reverse order. This paper introduces the parallel computing and the NCS algorithm implementation of the multi-core system architecture, and introduces the specific implementation process of the NCS algorithm. The overall system architecture and operation cluster of NCS algorithm, the transposed cluster and the FFT module in the operation cluster are expounded in detail. At the same time, the common parallel computing models, such as PRAM, are introduced, and their performance is analyzed in detail, which provides a theoretical basis for the performance evaluation of the NCS algorithm. In the body design, this paper introduces the NC under the Linux environment. The most important modules in the implementation of the S algorithm are the FFT operation module and the matrix transposed module, while the time consuming of the FFT module takes up most of the whole program. Therefore, this paper focuses on the design and implementation of the FFT module. The.NCS algorithm model is based on the precise memory system model and storage precision. The characteristic of the system model is that for any parallel computing problem, it is necessary to disassemble the algorithm before the problem begins, and put the required results and the intermediate data in the specific memory address to achieve the precision of the storage level. The advantage is that it saves time and the disadvantage is the initial stage in the aftermath of the problem. In the memory precision, the memory storage mode and data handling process in the implementation of NCS algorithm are introduced in detail, and the precise control of memory is realized. Finally, the NCS algorithm model has been partially optimized. The purpose of the NCS algorithm model is to provide the task partition for the hardware. The case and the intermediate data are provided to support the later debugging of the hardware system, so the task partition scheme of the NCS algorithm has a direct impact on the final implementation and efficiency of the hardware. In the virtual machine environment, we have implemented multi core parallel computing by using multithread technology in the virtual machine environment. The operation efficiency of the program under different threads is analyzed. It also provides a reference for the hardware on the one hand. It shows that the number of processors is not as large as possible in a certain amount of work. The rational task division and the full application of the processor resources are very important for a multi-core system. The aperture operation time TFFT=89.1s, Tstart=5.5s, optimized Tsub=65.3s, TFFT=48.6s, Tstart=5.5s, the optimized acceleration ratio is about R=25.6% in the serial code part of the 1.39. system, so its acceleration ratio limit is 3.9. under the experimental conditions, without considering the logic and power requirements of the algorithm, the acceleration ratio limit is 2.56, mainly due to the optimization under the actual conditions. The time required for the parallel part can not be completely ignored. At present, the project has completed the demonstration of the prototype demonstration system based on FPGA.
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN957.52
【相似文献】
相关期刊论文 前10条
1 孙广中;陈国良;徐云;郑启龙;吴俊敏;;并行计算系列课程教学团队建设[J];中国大学教学;2008年02期
2 孙广中;徐云;郑启龙;吴俊敏;陈国良;;并行计算系列课程教学团队建设[J];计算机教育;2008年15期
3 陆克中;孙宏元;;同构集群中并行计算熵研究[J];深圳大学学报(理工版);2009年01期
4 胡霞;;并行计算如何用于科学问题研究[J];科技资讯;2009年27期
5 颜宝勇;快速富里叶变换的并行计算[J];计算机工程与科学;1984年03期
6 吴靖;;一种用于基因序列比较的并行计算方法[J];国外医学.生物医学工程分册;1992年01期
7 李斌;并行计算用的计算机和模型[J];管理科学文摘;1996年04期
8 魏臻;;高性能计算,高兴能计算[J];中国教育网络;2010年06期
9 刘杰,迟利华,胡庆丰;优化并行计算的性能评价[J];计算机工程与设计;2000年06期
10 刘赫男,罗霄,高晓东;并行计算的现状与发展[J];煤;2001年01期
相关会议论文 前10条
1 黄宇光;;整体同步并行计算方法的现状与发展[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
2 罗文彩;陈小前;;并行计算的多方法优化协作[A];第二十四届中国控制会议论文集(上册)[C];2005年
3 左风丽;莫则尧;叶文华;;计算流体三维分裂格式的高效并行计算[A];中国工程物理研究院科技年报(2003)[C];2003年
4 王欣;李志山;张志远;;并行计算在弹塑性时程分析中的应用[A];信息化推动工程建设工业化——第四届工程建设计算机应用创新论坛论文集[C];2013年
5 张理涛;黄廷祝;谷同祥;左宪禹;;一种适合于分布式并行计算改进的平方共轭残差法[A];2008年全国开放式分布与并行计算机学术会议论文集(下册)[C];2008年
6 胡金初;;并行计算中的任务分配算法[A];2005年全国理论计算机科学学术年会论文集[C];2005年
7 宋庭新;李慧;;面向服务的有限元并行计算网格系统设计[A];湖北省机械工程学会设计与传动学会、武汉机械设计与传动学会2008年学术年会论文集(2)[C];2008年
8 裘懿勇;徐斌;刘晓明;;并行计算作业调度系统的架构及应用[A];第十四届中国科协年会第5分会场:绿色船舶与海洋装备创新发展及产业化论坛论文集[C];2012年
9 裘懿勇;徐斌;刘晓明;;并行计算作业调度系统的架构及应用[A];2012年MIS/S&A学术交流会议论文集[C];2012年
10 肖保国;杨顺华;邢建文;赵慧勇;;当地自适应建表方法在煤油超燃发动机并行计算中的应用[A];第十四届全国激波与激波管学术会议论文集(下册)[C];2010年
相关重要报纸文章 前10条
1 轶嘉;英特尔全球首个并行计算中心落户无锡[N];人民邮电;2009年
2 曙光信息产业有限公司研发中心 温鑫;并行计算任重道远[N];中国计算机报;2007年
3 英特尔并行计算实验室研究员 TimothyMattson;并行计算:减少串行软件[N];中国计算机报;2007年
4 曙光信息产业有限公司研发中心 温鑫;并行计算软件开发概述[N];中国计算机报;2007年
5 刘霞;计算能力的提升需要一场革命[N];科技日报;2010年
6 安世亚太 雷先华;ANSYS高性能并行计算[N];中国航空报;2005年
7 张云泉;并行计算:迎接多核时代的挑战[N];计算机世界;2006年
8 本报记者 马文方;英特尔为何要牵头并行计算[N];中国计算机报;2009年
9 英特尔 赵军(Jun Zhao);PC机并行计算革命尚未成功[N];中国计算机报;2009年
10 ;Linux下的网络并行计算[N];计算机世界;2000年
相关博士学位论文 前10条
1 张雨新;改进的MPS方法及其三维并行计算研究[D];上海交通大学;2014年
2 孙安香;数值气象预报变分同化的伴随模式并行计算[D];中国人民解放军国防科学技术大学;2002年
3 张理论;面向气象预报数值模式的高效并行计算研究[D];中国人民解放军国防科学技术大学;2002年
4 龙柏;并行计算平台上的数据索引技术研究[D];中国科学技术大学;2011年
5 管建和;电磁场有限元法解释分布式并行计算的研究[D];中国地质大学(北京);2006年
6 刘耀儒;三维有限元并行计算及其在水利工程中的应用[D];清华大学;2003年
7 金晶;并行计算普适编程模型及系统架构研究[D];北京邮电大学;2012年
8 盛艳秀;多核异构环境下通用并行计算框架关键技术研究[D];中国海洋大学;2013年
9 张帆;过程系统优化的分布式并行计算[D];浙江大学;2002年
10 刘寿生;虚拟现实仿真平台异构并行计算关键技术研究[D];中国海洋大学;2014年
相关硕士学位论文 前10条
1 胡荣华;并行计算在临近天气预报系统中的应用研究[D];华南理工大学;2015年
2 严善楷;异构系统中并行计算的动态负载均衡技术研究[D];华南理工大学;2015年
3 刘健健;基于云平台下嵌入GPU并行计算框架的人脸检测系统研究[D];中国海洋大学;2015年
4 张玉洁;基于多GPGPU并行计算的虚拟化技术研究[D];南京航空航天大学;2015年
5 郑伟;Spark下MPI/GPU并行计算处理机制的研究[D];中国海洋大学;2015年
6 程金龙;NCS成像算法的并行模型设计和优化[D];南京大学;2014年
7 龙海;基于移动Agent的并行计算研究[D];电子科技大学;2005年
8 孙晗琦;并行计算在计算流体力学中的研究[D];大连理工大学;2005年
9 罗伟刚;网络并行计算网格化平台的构建研究[D];广东工业大学;2006年
10 文剑;并行计算平台的建立及性能分析[D];广东工业大学;2007年
,本文编号:1791640
本文链接:https://www.wllwen.com/kejilunwen/wltx/1791640.html