18lickc新利
的意见

将16 nm FPGA集成到28/22nm SoC不失速度或灵活性

实现可编程FIR滤波器通过硬化数据路径,但在eFPGA保持控制路径。

受欢迎程度

FPGA系统这样的公司,因为它可以超越了并行处理性能处理器对许多工作负载和因为它时可以重新配置标准、算法、协议或客户需求的改变。

但fpga大,燃烧大量的电力,是昂贵的。客户想将它们集成到他们的相邻SoC如果可能的话。

几十个客户现在使用eFPGA大规模FPGA集成到16 nm, 12和7 nm出类拔萃。20多个客户工作的硅。和最大的eFPGA交付到目前为止是240 k附近地区和最快的运行在500 mhz最坏情况条件从-40度到+ 125 c。

许多芯片企业也使用eFPGA添加更改需求的灵活性。

如果你想要16 nm FPGA的性能很容易如果你有一个16 nm SoC。

但如何28/22nm SoC集成16 nm FPGA并保持16 nm速度?

一个简单的例子来说明一个解决方案

假设FPGA实现可编程滤波器如这个简单的例子:

图1:可编程滤波器。

路径是可编程的数据遵循三种路径:a) 20 + 40 + 60 = 120水龙头,b) 20 + 60 = 80水龙头,c) 60水龙头。

FIR滤波器的频率增加规模的28 nm和16 nm FPGA

数字滤波器算法主要是由乘数,蛇,和寄存器。有限脉冲响应的基本结构(杉木)过滤器如图2所示。冷杉过滤器体系结构有两种选择:直接形式和转置的形式。transposed-form架构选择最适合的DSP架构嵌入式FPGA。transposed-form冷杉,样本数据并行应用的所有水龙头乘数通过管道寄存器。注册的产品应用于级联链蛇,结合蓄电池和寄存器的作用。抽头系数被编程到FPGA织物直接最小化FPGA资源(如寄存器和附近地区),而不是使用寄存器来存储系数。

图2:N-TAP冷杉过滤转置形式架构。

fpga有大量的乘法器/蓄能器(mac),可用于实现FIR滤波器。

fpga可编程逻辑块之间的连接线连接如mac和附近地区。在大多数fpga之间也有直接的硬连接相邻的mac 5,连续10年甚至20 mac。但随着冷杉过滤器增大最终需要使用可编程互连连接MAC链。

图3:(a) Interconnect-connected mac和(b)直接传动mac。

上表显示了大电路的性能区别MAC连接(5-tap冷杉过滤器)和可编程互连连接(21-tap和40-tap FIR滤波器)。

特别注意,在28 nm,天生的冷杉滤波器datapath公司频率超过明显更大的FIR滤波器的频率16 nm。

加强数据路径,保持在eFPGA控制路径

在许多FPGA实现数据路径是相对稳定,这主要是更新的控制路径改变算法,标准和客户需求。和一个大FPGA往往受限于最长的连接设计。所以转向一个更小的FPGA可以提高性能。

如果客户设计一个28 nm SoC想集成16 nm FPGA没有更低的频率,一个解决方案是硬数据路径或大部分的数据通路。例如在可编程滤波器的例子在图1中,数据路径可以硬到MAC 10或20 MAC与可选择的替代数据链MAC链之间的路径。

控制路径可以实现在28 nm eFPGA:我们的数据表明,与RTL仔细写3或4阶段,400 mhz的性能是可以实现的小块eFPGA可以使用他们的输出控制电路的数据通路的功能。

与EFLX eFPGA重新配置的另一种选择是eFPGA不一定是用Flash与现有的fpga。如果需要的话,可以配置位FPGA可以从DRAM在毫秒或从本地存储器在微秒尽快重新配置。

一个现实生活的例子,硅建成的

Flex Logix建立了一个叫做InferX AI加速器使用InferX计算瓷砖如下所示。InferX运行在台积电的533 mhz 16 nm Yolov3等模型,v4, v5和ResNet-50。

InferX计算瓷砖固定16维张量处理器(64 INT-8 mac 64×64 INT8权重矩阵;它还可以在INT16经营模式)由一个快速连接可编程互连环配置各种神经网络操作。所有的这些都是由一个中央控制的核心eFPGA实现配置和运行的控制逻辑InferX计算瓷砖excute所需的神经网络运营商。一旦完成,瓷砖是重新配置最优16 tpu在接下来的操作符之间的连接。

图4:InferX计算瓷砖。

结论

finFET soc,快速FPGA可以在不改变FPGA集成Verilog RTL。

28 nm soc、快速硬化fpga可以集成的数据路径和一些可编程的连接和使用eFPGA控制路径与仔细写Verilog RTL 3或4层。Flex Logix已经做了这一个复杂的设计,可以帮助我们的客户和他们的。



留下一个回复


(注意:这个名字会显示公开)

Baidu