18lickc新利

的意见

高神经推论吞吐量批= 1

击败延迟神经网络,同时保留硬件利用率高。

2018年12月6日,由:杰夫•泰特

微软提出以下幻灯片的脑电波在今年夏天热芯片:

在现有的推论解决方案,高吞吐量(硬件)和高%利用可能的大型批量大小:这意味着相反的处理说一个图像,推论引擎处理10或50图像并行。这减少的数量乘以权重需要加载,它通常是现有最慢的一步推断的解决方案。

大的批量大小的缺点是,延迟增加。

和在边缘应用程序只有一个传感器不可能批:边缘性能需要以批= 1。

对于现有的推论解决方案,吞吐量和硬件利用率%与小批量大小急剧下降。这是因为在现有架构加载重量需要很长时间,而重量加载mac(乘数蓄能器)空闲不做有用的计算。

神经模型中的权重的数量比规模大得多的图像数据处理:ResNet-50 > 2000万重量而仅仅是224×224像素的图像。YOLOv3 > 6000万重量而任意大小的图像可以,但即使高分辨率就是2像素。

批= 1仍有可能达到你的目标吞吐量较低%硬件利用率,但这意味着你需要更多的硬件意味着更多的成本和能力。

NMAX:高吞吐量批大小= 1
NMAX从Flex是一个新的神经推论架构Logix很快能够负载权重。这意味着NMAX吞吐量,几乎是一样高的批大小1批大小的10 +。

NMAX是一个模块化的架构,可以实现1 > 100的吞吐量;和NMAX可伸缩:mac电脑的两倍意味着大约两倍的吞吐量。

NMAX的下面是一个比较三种尺寸,两个现有的数据中心类推论解决方案:T4和NVidia Tesla Habana戈雅,最近都宣布。

你可以看到大约50%的吞吐量滚边戈雅从批大小10到5比1。

戈雅吞吐量在批10 NMAX 12×12数组相似但降到一半大小的吞吐量NMAX 6×12批1。NMAX一些小碾轧批1但保持更接近峰值吞吐量。

戈雅和T4不要给MAC利用率,但我们估计T4 < 25%。NMAX 60 - 70%的吞吐量在同一ResNet-50模型。

NMAX达到其性能与更高的利用率和1/8^thDRAM。高利用率批= 1意味着需要更少的硬件为目标吞吐量这意味着一个更小,更便宜的芯片。更少的DRAM意味着更低的成本和带宽。

我们最好的估计是NMAX ~ 1/3的力量Habana等价的吞吐量和T4的解决方案。NMAX架构优化边缘应用:高吞吐量批1,低成本,低功耗。

杰夫•泰特

(所有的帖子)
杰夫•泰特的创始人兼首席执行官Flex Logix。泰特拥有超过三十年的经验技术。他是Rambus的前任首席执行官,当前董事会董事Everspin技术。他收到了他从阿尔伯塔大学修读计算机科学,和哈佛商学院工商管理硕士学位。

高神经推论吞吐量批= 1

杰夫•泰特

留下一个回复取消回复

技术论文

热门文章

有多少传感器自主驾驶吗?

挑战成长为倒装芯片创建小疙瘩

Chiplet计划就立马高速运转起来

如何计量工具堆栈在3 d NAND闪存设备

腐蚀过程推向更高的选择性,成本控制

知识中心
实体,人们和技术探索

相关文章

Nanoimprint终于找到立足点

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

有多少传感器自主驾驶吗?

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

最近的评论

关于

导航

与我们联系

高神经推论吞吐量批= 1

杰夫•泰特

留下一个回复取消回复

技术论文

热门文章

有多少传感器自主驾驶吗?

挑战成长为倒装芯片创建小疙瘩

Chiplet计划就立马高速运转起来

如何计量工具堆栈在3 d NAND闪存设备

腐蚀过程推向更高的选择性,成本控制

知识中心实体,人们和技术探索

相关文章

Nanoimprint终于找到立足点

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

有多少传感器自主驾驶吗?

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索