18lickc新利
的意见

建模的人工智能推理性能

上衣可能与成本,但不一定与吞吐量。

受欢迎程度

人工智能推理,关系到客户的指标是吞吐量/ $模型和/或吞吐量/瓦的模型。

有人可能会认为吞吐量将与上衣,但你错了。检查下面的表格:

Nvidia Tesla T4得到7.4推论/,泽维尔AGX 15和InferX 1 34.5。和InferX X1它差不多把DRAM带宽的其他两个(Nvidia芯片使用更高的带宽,更昂贵的后发展出)。

YOLOv3 2像素的图像,更相关的基准,T4得到16帧/秒vs X1 12帧/秒,7%的上衣和DRAM带宽的5%。

所以上衣和DRAM带宽与成本,但不一定与吞吐量。

设计一个高效推理芯片需要的能力模型性能领先于硅(InferX X1现在接近tape-out)。

人问我们如何准确预测性能在硅很多模型。对我们非常重要,能够确保我们做出了正确的体系结构权衡。需要我们投入,以确保我们能做对。

能够模型性能具有良好的准确性需要做三件事:

  1. 软件和硬件准备,所有的SoC块必须定义良好和必须有真实的模型,像YOLOv3,准备模拟从开始到结束
  2. 推理软件/编译器必须开发与硬件并行:手动优化基准是无法进行生产,所以必须compiled-produced运行代码
  3. 体系结构必须与minimimum确定性资源争用和静态调度和资源分配。

如果软件团队工作后的编译器硬件团队效率的可能性很低。

如果架构不确定性,能够准确预测性能较低。

例如,缓存命中率都很好理解现有的代码,但很难预测对于全新的工作负载。如果公共汽车共享,争论可以非常难以预测。对于InferX X1,计算资源都位于一个eFPGA织物有编程期间互连层直接连接包含输入激活mac电脑的内存的附近地区激活回内存存储输出激活。这是完全确定的。

层迅速重新配置(~ 2 1000000秒)。模型中像YOLOv3处理2像素的图像,需要> 3000亿mac /形象。在多一点100 > 30亿mac层每层的形象。所以重新配置时间相比是非常小的计算时间。

深层融合可以同时允许多个层实现一个直接喂养下——这可以消除许多最大的激活(在YOLOv3,最大的激活是64 mb从一层一层0到1:用0和1层融合在一起64 mb之间直接传递层没有DRAM读或写)。

InferX X1将下一层的重量和代码在当前层的执行——它们是存储在缓存位置,然后快速加载在重新配置周期短。这样做“隐藏”几乎所有的DRAM交通在计算时间。YOLOv3 2像素,只有4%的周期是DRAM交通摊位mac。

最后,我们正在运行完整的InferX X1 RTL,包括作为PCIe和LPDDR4控制器,在导师快速地模拟盒子。这让我们在模拟Linux引导SoC,加载X1内核驱动程序,运行模型和触发事件和转储详细的波形和vcd向量,以及执行系统级性能和power-rail分析。

nnMAX编译器工具现在可以运行模型TFLite或ONNX并给出了预测性能,我们预计将会非常非常接近实际的硅/董事会我们预计在2020年初。联系我们在(电子邮件保护)如果你想让我们的软件试试在你的模型(s)。



留下一个回复


(注意:这个名字会显示公开)

Baidu