18.luck新利
的意见

高性能DSP和控制处理复杂5 g的要求

需求方的进化来支持新的移动通信标准的要求。

受欢迎程度

在2000年代早期,数字信号处理器(DSP)在体系结构和性能有限,简单但复杂的编程。然而,它们进化到满足增加的3 g手机基带调制解调器应用程序的性能需求。一个典型的3 g调制解调器系统将有一个DSP为双/四SIMD MAC性能优化等基本的DSP滤波器指令快速傅里叶变换(FFT)和无限脉冲响应(IIR)。很长的指令字(VLIW)体系结构介绍了提高性能通过启用执行多个并行操作在紧,封闭循环。虽然c编译器技术的发展,对于优化性能,编程还DSP汇编级的算法。

成为可用的DSP, DSP库使更快的软件开发和更优化的操作。3 g无线通信算法,复杂数据类型(I和Q)计算支持是必需的。因此,被添加到架构和数据类型库和编译器,可以映射到SIMD MAC需求方的计算单位。

然而,当时,大约50%的无线通信应用程序的计算是数字信号处理而另一半包括控制和非向量数据计算(标量)任务。控制和标量任务不适合运行在SIMD VLIW DSP核心因为控制代码分支和异常,导致许多长管道摊位。因此,标量计算单位和分支预测函数引入DSP。

需求方是适合于语音和音频应用,SIMD MAC性能可以提供所需的计算性能音频卸载引擎用于智能手机和平板电脑。这开辟了新的市场需求方。

细胞LTE需求方宽
无线(移动和无线移动通信标准开车需要更大的计算复杂度,和3.9 g调制解调器,与多个天线,多输入和多输出(MIMO)信道聚合,和估计算法,需要更多的软件编程对手机基带芯片支持更多的功能。并行编译器技术也发展认识到DSP向量数据类型和匹配循环的进步,和执行基本的自动向量化内部内部循环。

随着性能需求的增加,需求方的SIMD宽度增加到16日,32岁,甚至64 mac /周期细胞移动和基础设施应用程序。此外,更多自定义指令集架构(ISA),包括DSP滤波器加速度指令,矩阵计算加速度,和寻址模式进一步加快业务更好的性能。

双加载存储架构与更广泛的负载和/或存储单元被用来支持更高的吞吐量MAC复杂的矢量数据的单位。加上这个,寄存器文件更新大量的专用的矢量数据寄存器文件来平衡计算的架构吞吐量和减少内部寄存器压力。

VLIW结构也扩展到支持更高的吞吐量计算。在优化性能,例如,执行FFT函数需要加载,加载、执行、和存储,因此4日发行VLIW DSP向量操作。

这些dsp集成矢量和标量引擎,它可以并行执行。一些架构VLIW分裂DSP向量操作方案和标量操作,导致大的指令字的长度。其他dsp合并VLIW矢量和标量操作,导致小指令字长但更多的指令解码复杂度。在这些需求方,pre-mapped和调度控制和DSP功能由编译器为VLIW指令。

随着计算复杂性的增加与LTE类别数量,有一个在调制解调器使用多核系统转移到系统中解决不同加工需求。处理器有不同的体系结构和性能取决于系统的功能组件中使用它们。例如,LTE调制解调器的前端DSP功能都需要进行复杂的矢量数据的计算。分开需要soft-bit域处理,由标量16位数据最适合不同类型的架构/ ISA和更好较小的或特定于任务的处理器。

与4 g (LTE-Advanced)调制解调器,计算复杂性增加约10倍相比,3 g调制解调器。支持这个,需求方是无线通信算法的进一步优化和进一步加速与定制指令,作为基础的一部分,ISA或可扩展选项。浮点支持用于基础设施的分配计算算法在DSP处理器的另一个关键发展技术。

4 g和更高的系统异构
作为算法的计算工作量和复杂度不断增加,一个处理器的方法不再是可行的,并有一个异构系统。设计师不能适应大核心运行GHz的SoC (SoC)权力受到严格预算,所以更多的需求方主要被用于数据路径计算高度特定于任务的可编程的核心是使用大多数数据密集型任务,如前端FFT、涡轮编解码器,信道估计(图1)。


图1:处理器的灵活性对功率预算平衡性能需求

与4 g无线通信调制解调器的高端,大规模物联网和不间断的激活应用程序将需求方的需求在一个完全不同的方向。低成本、低功耗的需求,能够实现多个需求方在一个DSP核心推动单核的实现。这些新类型的需求方的架构和ISA汇集音频、无线通信、控制和图像/运动检测算法。这种“一个核心”选择/取消选择计算方法提供了灵活性和架构选项来实现最低最小的大小和力量。

5 g的复杂性要求和功能要求
下一步是5克,据估计,进一步显示出10到20 x计算复杂性相比,4 g调制解调器。5 g调制解调器与稳定的因素更加复杂覆盖更大范围的应用,带宽和延迟。一些基础设施的MIMO配置更高,使用大规模分布式天线的应用程序只能实现高精度浮点计算。

解决这些需求,更特定于任务的可编程核将用于出售的主要计算密集型任务,不再需要的主要宽SIMD VLIW dsp运行这些算法。此外,需求方纯粹用于DSP计算。宽的控制和排序操作卸载SIMD VLIW DSP控制器DSP核心优化。这个核心是新的控制器的核心(CPU)针对GHz最高时钟频率高、非常高效的任务切换,多线程操作。也有DSP扩展支持单,双,quad-MAC水平DSP计算非关键DSP功能不是最优主宽SIMD VLIW DSP上运行,但可以在控制器上运行/ DSP核心。超标量体系结构的体系结构更适合比VLIW处理器的目标控制器算法代码控制、分支、中断和异常。

对于控制和低级DSP功能,这些核心操作测序仪硬件加速器街区,这是另一个函数将从主要的需求方。控制器核心要求直接连接硬件模块,支持服务请求,硬件模块之间的数据移动和同步操作。


图2:需求方的进化和cpu为移动用户设备调制解调器

Synopsys对此是IP的领导人包括处理器和一直在与4 g / 5 g现代SoC开发人员多年,并完全理解设计师面临的问题和需要的高性能dsp控制器核心。这是翻译成最近发布的HS45D使用紧密耦合的指令和数据的记忆,和HS47D核心(使用指令和数据缓存内存)与DSP的高性能控制器内核扩展,为这些特定的需要。

HS4xD (HS45D和HS47D)核心是基于一个先进的整个管道与指令执行双发射超标量体系结构,实现算术逻辑单元(ALU)后期执行。根据上下文的核心资源和条件指令,后期ALU使更多的周期条件指令提交之前解决。也早日解决mis-predicted分支,这大大减少了管道摊位,改善控制操作的性能。


图3:弧HS4xD处理器框图

先进的管道架构提供了一个真正的两个循环指令和数据内存访问(实现为两个管道阶段致力于访问CCMs和缓存)。这给了SoC技术开发人员更多的选择在紧密耦合的记忆,并使处理器的时钟频率两倍的记忆,这简化了设计,减少实现瓶颈。

定点DSP扩展包括150 DSP指令,复杂数据类型以及浮点数(单精度和双精度)计算的核心。也有说明和寻址模式加速大多数DSP滤波器函数和算法用于通信、雷达、和家庭音频应用程序。核心可以执行持续双MAC(16位x 16位)和四MAC(16位x 16位)关键数字滤波器函数。DSP功能受益超标量体系结构的并行指令执行体系结构,结合先进的加载/存储单元的核心,持续高性能DSP计算可以实现,只与DSP核心。

由于所有这些架构和ISA功能,HS45D(缓存版本)可以实现一个典型的时钟频率为2.5 ghz (16 nff)并给予足够多的性能开销为额外的计算需求的增长。也提供了一个行业领先的核心5.2 CoreMarks / 3.0 MHz基准数以及Dhrystone MIPS / MHz。

HS4xD核心是C编程和完全兼容其他弧DSP的解决方案。它包括一个performance-optimized DSP库,允许开发人员快速获得所需性能的核心关键算法。

像所有的处理器,弧HS4xD方面的核心是可配置的架构,内存子系统和ISA选项。有许多配置选项允许开发者定制的核心,以满足性能要求,以及保持最小尺寸和功耗。与这些核心,弧形顶端技术可用。先端允许指令集扩展,登记银行、自定义寄存器,用户添加和自定义接口的核心。这允许开发人员添加自定义指令寄存器加速关键算法,在需要的地方提供非常高的性能。

HS4xD提供最多的选项之一连接方案在一个SoC。在模块化的总线接口(例如,安巴等),有一个单独的HS4xD外围总线。这个外围总线专用内存映射区域和零延迟,SoC开发者自己的外围设备可以连接到这个外围总线。这允许隔绝性能关键外设总线共享延迟时间等。

使用顶点注册扩展、硬件模块可以连接到顶端寄存器,可以直接访问。这些寄存器可以被任何宽度的定义,并将符合硬件块操作。这允许用户硬件模块直接连接到核心和核心控制指令。加上µDMA引擎可用HS4xD核心,数据移动的硬件模块可以由HS4xD控制核心。

总结
都发生了重大的变化在过去的十年里半能够满足无线通信标准的需要。现在,都发现他们在移动手机的基带调制解调器设备。但更高的性能和更大的故事核心不工作在现代移动设备电池寿命和功耗是至关重要的。因此更特定于任务的,异构的核心以及DSP /控制器核心已经进化。因此,DSP IP供应商应该提供SoC开发者更大范围的DSP、加速器、定制的核心,DSP /控制器内核。Synopsys对此“弧HS4xD处理器功能双发射,32位RISC + DSP架构为嵌入式应用高性能和高时钟速度+信号处理是必需的。HS4xD芯提供了灵活性,控制,信号处理,功耗是现代DSP需要解决的挑战。

更多信息:



留下一个回复


(注意:这个名字会显示公开)

Baidu