18lickc新利
的意见

高神经推论吞吐量批= 1

击败延迟神经网络,同时保留硬件利用率高。

受欢迎程度

微软提出以下幻灯片的脑电波在今年夏天热芯片:

在现有的推论解决方案,高吞吐量(硬件)和高%利用可能的大型批量大小:这意味着相反的处理说一个图像,推论引擎处理10或50图像并行。这减少的数量乘以权重需要加载,它通常是现有最慢的一步推断的解决方案。

大的批量大小的缺点是,延迟增加。

和在边缘应用程序只有一个传感器不可能批:边缘性能需要以批= 1。

对于现有的推论解决方案,吞吐量和硬件利用率%与小批量大小急剧下降。这是因为在现有架构加载重量需要很长时间,而重量加载mac(乘数蓄能器)空闲不做有用的计算。

神经模型中的权重的数量比规模大得多的图像数据处理:ResNet-50 > 2000万重量而仅仅是224×224像素的图像。YOLOv3 > 6000万重量而任意大小的图像可以,但即使高分辨率就是2像素。

批= 1仍有可能达到你的目标吞吐量较低%硬件利用率,但这意味着你需要更多的硬件意味着更多的成本和能力。

NMAX:高吞吐量批大小= 1
NMAX从Flex是一个新的神经推论架构Logix很快能够负载权重。这意味着NMAX吞吐量,几乎是一样高的批大小1批大小的10 +。

NMAX是一个模块化的架构,可以实现1 > 100的吞吐量;和NMAX可伸缩:mac电脑的两倍意味着大约两倍的吞吐量。

NMAX的下面是一个比较三种尺寸,两个现有的数据中心类推论解决方案:T4和NVidia Tesla Habana戈雅,最近都宣布。

你可以看到大约50%的吞吐量滚边戈雅从批大小10到5比1。

戈雅吞吐量在批10 NMAX 12×12数组相似但降到一半大小的吞吐量NMAX 6×12批1。NMAX一些小碾轧批1但保持更接近峰值吞吐量。

戈雅和T4不要给MAC利用率,但我们估计T4 < 25%。NMAX 60 - 70%的吞吐量在同一ResNet-50模型。

NMAX达到其性能与更高的利用率和1/8thDRAM。高利用率批= 1意味着需要更少的硬件为目标吞吐量这意味着一个更小,更便宜的芯片。更少的DRAM意味着更低的成本和带宽。

我们最好的估计是NMAX ~ 1/3的力量Habana等价的吞吐量和T4的解决方案。NMAX架构优化边缘应用:高吞吐量批1,低成本,低功耗。



留下一个回复


(注意:这个名字会显示公开)

Baidu