18lickc新利
的意见

神经网络建模软件性能

如何构建一个推理芯片边缘。

受欢迎程度

nnMAX推理IP已接近设计完成。nnMAX 1 k瓦将在今年夏天在soc设计集成,并且它可以排列需要提供任何推理的吞吐量。InferX X1芯片将磁带今年第三季度末使用2×2 nnMAX瓷砖,4 k mac, 8 mb SRAM。

nnMAX编译器是并行发展,第一个版本是可用的。评估许可证可用于使用nnMAX编译器获取准确的性能估计任何nnMAX配置,包括X1。目前INT8 TensorFlow Lite模式支持。本季度晚些时候,ONNX也将提供的支持,并支持将延至INT8 / BFloat16(任何混合层)。

不像其他推理架构,nnMAX是一个完全确定的架构。每层datapath公司编程,使用我们XFLX互连已经证明了从180年到12海里,从SRAM提供一个固定的路径到硬件单元和存储器。datapath公司是微秒或少层之间的重新配置。

nnMAX编译器流
下面是nnMAX编译器的体系结构。

用户可以指定任何nnMAX规范数组:数组是由M N行与X MB的SRAM每瓦列,其中X是1 MB, 2 MB或4 MB。InferX X1芯片是2×2 2 mb /瓷砖为4 k mac和8 mb SRAM。吞吐量增加线性增加数组大小差不多。根据模型,所需的SRAM会有所不同;还更多的存储器通常会减少DRAM带宽要求。

不同的解析器允许输入从Tensorflow Lite和ONNX;也许将来其他模型,虽然到目前为止,所有客户表示Tensorflow Lite或ONNX满足他们的需求。解析器将神经模型转换成一种内部表示格式。

nnMAX编译器前端组层(层融合)最大化吞吐量为一系列配置。

然后nnMAX编译器生成的软逻辑控制nnMAX数组执行期间配置。软逻辑运行在eFPGA nnMAX瓷砖的附近地区。

X1硅可用性之前我们将能够验证所有生成的配置,datapath公司和软逻辑在一个FPGA原型,以确保功能精度100%。

下一步是后端place-and-route使用我们现有的EFLX eFPGA place-and-route。它已经运行了4年eFPGA数组在180 nm, 40 nm, 28 nm, 16 nm, 14 nm和12海里。互连阵列的一个变化是增加了对流水线的拖鞋,在需要的时候,达到1.067 ghz操作在最坏的情况。

配置的最后一步是生成二进制文件加载到nnMAX数组或者InferX X1运行所需的神经模型。多个模型可以nnMAX上运行。

建模配置

nnMAX性能Modeler现在评估许可下可用。目前任何TensorflowLite INT8模型支持。

Modeler数据层融合成连续的配置,然后计算需要多少周期来执行每个配置,重新配置层之间和多少个周期的DRAM“失速”可能是由于大型激活读/赖特兄弟为例。

客户看到nnMAX配置,他们的模型和批量大小的吞吐量在帧/秒。

其他有用的信息提供:

  • DRAM带宽和存储器带宽
  • TeraMACs /秒
  • MAC的利用率
  • 数组区域
  • 配置或重量是否存储在存储器中

可以提供这些信息,因为nnMAX执行100%的确定性。没有总线争用或内存争用,因为datapath公司使用我们的记忆之间的互连,配置硬件和内存。

在我们软件有进一步改善的空间。层融合算法是不错,但我们已经注意到一些情况可以做得更好。有权重的情况或配置层可以被保存在早些时候SRAM后来层,使用相同的。



留下一个回复


(注意:这个名字会显示公开)

Baidu