异构多核DSP数据流前瞻关键技术研究
发布时间:2020-10-27 23:25
异构多核DSP通过在一块芯片内集成多个DSP核和其他处理器核,可以将不同类型的计算任务分配到不同类型的处理器核上并行处理,是一种功能强大、灵活高效的嵌入式SoC处理器。异构多核DSP在处理数据流密集型应用时,相比单核DSP需要更大的存储带宽和更灵活的存储结构,对片上存储系统和数据通路具有更高的性能要求。如何有效减轻“存储墙”问题对异构多核DSP性能和扩展性的限制,成为异构多核DSP体系结构研究中的重要课题之一。 数据前瞻技术是提高计算与存储并行性,缓解多核处理器中“存储墙”问题的有效手段。它通过前瞻地执行远程数据访问,将计算所需的数据提前送入距离处理器较近的局部存储器(例如数据Cache)内,能够有效减少本地访存失效,隐藏远程访问延迟。本文针对异构多核DSP应用中数据流密集的特点,从隐藏远程访问延迟、优化片上存储层次、改进数据管理效率和提高数据输入/输出带宽四个方面,有针对性地研究了几种数据流前瞻技术,并结合异构多核DSP实验平台SDSP和PolyDSP进行了性能分析与评测。本文的主要工作与创新点体现在以下几个方面: 1)结合多核DSP课题组的工作,构建了共享存储结构的异构多核DSP“SDSP”,并以SDSP为超节点扩展出了大规模多核DSP系统原型“PolyDSP”。本文完善了SDSP和PolyDSP在各个层次上的同步与通信机制,以及系统的并行编程框架和DSP应用程序的并行映射方法。 2)全面分析了典型DSP应用程序中的数据流分布特征。分析结果表明:单个DSP核运行所访问的数据、多个DSP核之间共享的数据以及Cache一致性失效涉及的数据中都分布着大量数据流;同时,多DSP核共享的数据流之间具有相似的生产顺序、消费顺序和相似的访问局部性。 3)为了减少Cache一致性失效,隐藏远程访问延迟,提出了一种面向共享存储多核DSP结构的数据流分簇前向(forwarding)技术DSCF。DSCF技术采用专门的硬件模块执行软件原语发出的核间前向传输请求,将“消费者”DSP核所需的数据块提前分簇传送到它的私有数据Cache中,传输速度与消费速度相匹配。实验结果表明,DSCF技术有效降低了Cache一致性失效率,提高了共享存储多核DSP的计算性能,总体性能优于已有的Koufaty方法和Wenisch方法。 4)为了优化异构多核DSP的片上存储层次,提出了一种适用于小规模多核DSP的快速共享便笺存储技术,并构建了其结构模型FCC-SDP。FCC-SDP以多体并行的小容量便笺存储器为传输媒介,采用基于硬件信号灯的同步机制,支持多个DSP核的并行访问和点对点事件同步,访问速度与一级数据Cache相当,能够快速实现DSP核间细粒度共享数据的传输。实验结果表明,FCC-SDP相比已有的VS-SPM结构具有明显的性能优势;采用FCC-SDP与共享Cache相结合的数据映射方式,将DSP核间的细粒度和不规则共享数据映射到FCC-SDP上,能够进一步提高片内的数据重用性和系统的计算性能。 5)为了改进系统的数据流管理效率,设计了异构多核DSP的数据流传输控制引擎(DSTCE),并提出了一种利用DSTCE实现数据流前瞻传输的方法。DSTCE采用了可编程的后台传输机制,针对异构处理器核之间的数据流传输、超节点之间的数据通信和系统的并行编程与映射都进行了专门的设计优化。本文采用专用的前瞻操作原语,利用DSTCE实现了不同端口之间的数据流前瞻传输。DSTCE有效提高了异构多核DSP系统对数据流的管理效率,相比基于CC-NUMA结构的超节点扩展方案,基于DSTCE和片上网络的扩展方案在计算性能和数据带宽两方面都具有更好的扩展性。 6)设计实现了异构多核DSP的外部存储器控制接口(EMCI)并提出了一种基于链表式数据流预取技术的访存带宽优化方法。EMCI的设计采用了多项关键技术,能够同时支持高速的DDR2存储器和多种异步存储器。本文采用两个基于链表结构的数据流预取缓冲器,识别并预取与二级Cache失效相关的数据流。实验结果表明,相比已有的两种预取方法,本文的方法以较低的硬件开销实现了比较令人满意的预取命中率、预取有效性和性能提升,具有更高的能效比。
【学位单位】:国防科学技术大学
【学位级别】:博士
【学位年份】:2007
【中图分类】:TP368.1
【部分图文】:
互连网络图1.1CC一NUMA多处理机结构导体集成工艺的发展和SoC设计水平的提高,人们成功实个处理器内核,构成CMP。已有的CMP体系结构在很大机系统的结构模型,并结合微处理器的工艺特点进行了改,采用多级Cache结构并用硬件维护多核的Cache一致性,术等。目前有代表性的CMP有几下几款。学于2002年推出多核处理器RAW,使用IBM的o.18um50oMHz[’4]。RAw处理器中集成了16个精简的刃sC处理器都有单独的微处理器、数据Cache以及存储器。Tile之间通esh网络互连,其结构如图1.2所示。RAW处理器适合于线间并行执行。RAW的互连结构为编译器可见,编译器可传递,这使得程序员面对通信延迟可以更好的安排程序执行
图1.3TRIPS处理器结构年底,STI联盟(索尼、东芝和IBM公司联盟的简称)推出了拥的eell处理器[’5],如图1.4所示。eell集成了一个PowerPe主处理助处理单元(SPE),采用IBM的90纳米铜互连501工艺,包,主频可达4.6GHz,运算性能峰值为256GFLOPS。Cell结合了多标量、低功耗控制、高速存储接口和1/0等所有处理器和体系结术,是当前多核处理器设计的一个巨大飞跃。}}}绷}}}}sXUUU建建建建建建建建建建建建建建建建建建建…鹤霆霆霆黝黝黝巨巨汇粼粼垂垂垂垂垂垂容:::::,_____年攀攀攀攀攀攀攀攀攀攀攀一一娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜日日日日日日日日日日日日铆铆窄)))))琳琳霸霸霸陈陈滋式式口口口口口口口口口日日日日日日日
每个处理核心具有16个同构的执行节点和相应的觑觑瓣觑觑卜卜1.1;卜I、11竺卫」弓l之」二」卜卜}孟巨卜卜口口仁!羞口1二11二下111二]司压l司贾口司司园园司苏应国压回琢区卫〕口刃;压1刃刃阵阵】司老吓下1厂杯1笔同司冈司竺压下111觑觑瓣撇撇瓢瓢拼句句!娜‘阶……匣匣三到~澎絮璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐‘‘‘讲只晦晦摆料……………}}}!~竺竺日日,职只峥峥峥峥峥峥峥峥峥日日日日~,!二日日日」」」」」」」」」」」」」」」」」」~{城:}}}}}}}二~}}}伞伞中争争争争争争争争一一门吁公公乙乙长长搜拙七狄七七加加因巨吹吹图1.3TRIPS处理器结构底,STI联盟(索尼、东芝和IBM公司联盟的简称)推出了eell处理器[’5],如图1.4所示。eell集成了一个PowerPe主处理单元(SPE),采用IBM的90纳米铜互连501工艺,主频可达4.6GHz,运算性能峰值为256GFLOPS。Cell结合量、低功耗控制、高速存储接口和1/0等所有处理器和体系,是当前多核处理器设计的一个巨大飞跃。
【引证文献】
本文编号:2859227
【学位单位】:国防科学技术大学
【学位级别】:博士
【学位年份】:2007
【中图分类】:TP368.1
【部分图文】:
互连网络图1.1CC一NUMA多处理机结构导体集成工艺的发展和SoC设计水平的提高,人们成功实个处理器内核,构成CMP。已有的CMP体系结构在很大机系统的结构模型,并结合微处理器的工艺特点进行了改,采用多级Cache结构并用硬件维护多核的Cache一致性,术等。目前有代表性的CMP有几下几款。学于2002年推出多核处理器RAW,使用IBM的o.18um50oMHz[’4]。RAw处理器中集成了16个精简的刃sC处理器都有单独的微处理器、数据Cache以及存储器。Tile之间通esh网络互连,其结构如图1.2所示。RAW处理器适合于线间并行执行。RAW的互连结构为编译器可见,编译器可传递,这使得程序员面对通信延迟可以更好的安排程序执行
图1.3TRIPS处理器结构年底,STI联盟(索尼、东芝和IBM公司联盟的简称)推出了拥的eell处理器[’5],如图1.4所示。eell集成了一个PowerPe主处理助处理单元(SPE),采用IBM的90纳米铜互连501工艺,包,主频可达4.6GHz,运算性能峰值为256GFLOPS。Cell结合了多标量、低功耗控制、高速存储接口和1/0等所有处理器和体系结术,是当前多核处理器设计的一个巨大飞跃。}}}绷}}}}sXUUU建建建建建建建建建建建建建建建建建建建…鹤霆霆霆黝黝黝巨巨汇粼粼垂垂垂垂垂垂容:::::,_____年攀攀攀攀攀攀攀攀攀攀攀一一娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜娜日日日日日日日日日日日日铆铆窄)))))琳琳霸霸霸陈陈滋式式口口口口口口口口口日日日日日日日
每个处理核心具有16个同构的执行节点和相应的觑觑瓣觑觑卜卜1.1;卜I、11竺卫」弓l之」二」卜卜}孟巨卜卜口口仁!羞口1二11二下111二]司压l司贾口司司园园司苏应国压回琢区卫〕口刃;压1刃刃阵阵】司老吓下1厂杯1笔同司冈司竺压下111觑觑瓣撇撇瓢瓢拼句句!娜‘阶……匣匣三到~澎絮璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐璐‘‘‘讲只晦晦摆料……………}}}!~竺竺日日,职只峥峥峥峥峥峥峥峥峥日日日日~,!二日日日」」」」」」」」」」」」」」」」」」~{城:}}}}}}}二~}}}伞伞中争争争争争争争争一一门吁公公乙乙长长搜拙七狄七七加加因巨吹吹图1.3TRIPS处理器结构底,STI联盟(索尼、东芝和IBM公司联盟的简称)推出了eell处理器[’5],如图1.4所示。eell集成了一个PowerPe主处理单元(SPE),采用IBM的90纳米铜互连501工艺,主频可达4.6GHz,运算性能峰值为256GFLOPS。Cell结合量、低功耗控制、高速存储接口和1/0等所有处理器和体系,是当前多核处理器设计的一个巨大飞跃。
【引证文献】
相关期刊论文 前1条
1 孙科林;周维超;吴钦章;彭真明;;光纤实时传输的多核DSP图像处理系统(英文)[J];光电工程;2012年04期
相关博士学位论文 前4条
1 张波涛;片上高性能嵌入式计算—面向软基带的应用并行处理模型及体系结构[D];国防科学技术大学;2011年
2 刘彩霞;基三片上多核系统TriBA存储体系关键技术研究[D];北京理工大学;2010年
3 孙科林;基于多核DSP的实时图像处理平台研究[D];电子科技大学;2012年
4 尹亚明;MPSoC片上互连网络缓冲管理与高速互连技术研究[D];国防科学技术大学;2013年
相关硕士学位论文 前6条
1 靳强;“银河飞腾-DX”DSP高效二级cache的设计与实现[D];国防科学技术大学;2011年
2 柴俊;多核流体系结构原型验证平台的研究与实现[D];国防科学技术大学;2009年
3 刘立哲;基于双核处理器(OMAP3530)的嵌入式开发平台研究与实现[D];北京工业大学;2012年
4 王新明;实时图像融合的双DSP并行系统研究[D];南京理工大学;2013年
5 张浩龙;基于多核DSP的电子稳像系统关键技术研究[D];北京工业大学;2013年
6 周佩;基于多核DSP并行调度机制的实现[D];中国科学院研究生院(光电技术研究所);2014年
本文编号:2859227
本文链接:https://www.wllwen.com/kejilunwen/jisuanjikexuelunwen/2859227.html