中文 英语
18lickc新利
的意见

为推理软件至少是一样重要硬件加速器

世界上所有的小使用如果软件不能有效地利用它们。

受欢迎程度

在文章和会议演示推理加速器,重点主要是上衣(mac)频率倍,一点内存接口和片内存储器(DRAM),很少在互连(也很重要,但这是另一个故事),几乎没有什么软件!

如果没有软件,推理加速器是一块石头,它什么都不做。软件就是呼吸的生命变成一个推理加速器(但不能拯救一个坏硬件架构)。

准备,瞄准,射击
一些客户告诉我们“我们的供应商不能给我们之前预测硅性能。”和一些客户设计了自己的推理加速器抱怨“我们有很多的上衣,但软件人不能有效地利用它们”。

和其他的客户告诉我们,从一些著名的推理加速器获得合理的性能要求非常低水平的编程管理内存存储和传输,因为厂商的软件不能。似乎许多推理加速器都离开了他们的软件后期阶段而不是开发软件和硬件结合在一起,以确保他们一起工作得很好。

所有推理加速器共有以下元素:

  • 苹果电脑
  • 片上存储器
  • DRAM芯片外
  • 控制逻辑
  • 片上互连之间的所有单位

元素的数量和组织之间的不同推理加速器。

当设计一个推理加速器你怎么知道如果你正在构建一个芯片,将提供高吞吐量/瓦特和高吞吐量/ $ ?答案是推理软件。

在架构InferX X1我们性能估算模型早期关键性能指标,通常由客户要求,如YOLOv3为224×224像素的图像和ResNet-50和像素的图像。使用这些性能估算模型和成本模型从我们的硅/包供应商允许我们确定最优死的大小,数量的mac电脑,SRAM的字节数和DRAM接口数量最大化吞吐量/和吞吐量美元/瓦特像素的图像。

我们如何有信心在我们的性能估计在硅?这是因为我们的架构是完全确定的。对于一个给定的模型和图像大小,我们知道的执行时间周期。看来,大多数其他推理加速器non-determistic特点:总线争用,SRAM争用,DRAM争用。争用性能建模非常困难,没有模拟一个大型的、大量的完整模型的图像的大小。

今天我们的客户可以使用我们的性能建模工具来决定他们的模型速度/图像大小将运行在X1:需要几分钟最大。因为它是快,客户可以快速尝试修改他们的模型是否能提高吞吐量,更好的利用底层硬件。

一些客户已经与我们分享他们的模型,特别是在非标准的应用程序,看看我们可以提高性能。在一些情况下,我们已经能够优化性能2或4 x在关键层通过实现新算法在我们的软件编译器。

我们完整的芯片RTL导师模拟器上运行多个推理层运行完整的像素图像大小。要做到这一点需要我们的软件会生成控制代码X1所以我们软件准备硅(我们很快就会得到)。

我们nnMAX推理编译器神经网络模型在ONNX TensorFlow-Lite和编译直接InferX X1的控制代码。客户不需要做任何低级编程,不像我们听说其他推理加速器。X1支持BF16所以客户模型训练FP32很快可以启动一个运行,而无需等待量子化(但当他们做量化,X1在INT8运行模式)。

当我们在Q2硅回来我们期望能够运行许多开放源码模型(YOLOv3等)和众多客户专有模型在一周内确认性能估计然后为他们样品客户提供董事会确认。

结论
开发软件性能估算模型然后完整的软件并行编译器和前片硅是至关重要的,确保硬件+软件的结合提供了最佳吞吐量/和吞吐量美元/瓦特。一个确定的架构是能够做到这一点很有帮助。



留下一个回复


(注意:这个名字会显示公开)

Baidu