18lickc新利
的意见

上衣、内存吞吐量和推理效率

评估推理加速器为钱找到最好的吞吐量。

受欢迎程度

许多公司已经或正在开发的IP和神经网络推理的芯片。

几乎每一个AI公司给上衣但其他信息。

上衣是什么?这意味着每秒数万亿或拉操作。它主要是一个测量的最大可以达到的吞吐量,但是不是一个实际的吞吐量。大多数操作都是MAC(乘/积累),所以上衣= (MAC的数量单位)x (MAC的频率操作)2。

所以更多的上衣意味着更多的硅面积,更多的成本,更大的权力也许更多的吞吐量,但这取决于其他方面推理的加速器。

顶部的信息是不够的。你需要知道的吞吐量模型,你的图像大小,批量大小——这将告诉你如果芯片或IP将满足您的吞吐量要求。

但代价是什么力量?你需要测量推理效率。

推理效率
吞吐量/美元(或者¥€)是推理效率对于一个给定的模型,图像大小,批量大小,并允许对比选择。

小的价格信息是可用的,但是我们可以估计成本通过观察芯片的成本的关键因素。

所有推理加速器将有4个关键组件,将大部分的芯片:

  1. mac(假设现在都INT8,但许多INT16和BFloat16选项);
  2. SRAM芯片(可能是分布式或中心);
  3. DRAM(每个DRAM需要DDR PHY芯片和100额外的BGA球);
  4. 互连体系结构连接的计算和内存块以及逻辑控制神经网络模型的执行。

更多的mac电脑,更多的SRAM, DRAM和互连都将提高吞吐量,增加成本。

目标是获得最大的推理效率:最大化吞吐量(对于一个给定的模型、图像大小、批量大小)最少的mac电脑,SRAM, DRAM和互连。这将使吞吐量最大化/美元。注意,美元和权力将关联:功耗来自mac, SRAM, DRAM和互连,会转化为更大的权力。

一些(但不是很多)公司为他们提供额外的数据推断加速器芯片:上衣、后发ResNet-50(决定DRAM带宽)和吞吐量。吞吐量/可近似看美元结合吞吐量/上衣,吞吐量/ SRAM和吞吐量/ DRAM。

ResNet-50不可能使用最好的基准。实际上没有人在应用程序中使用它。但它是唯一基准有足够的数据来做一些比较。记住,更大的相对性能模型和大图尺寸可能会根据每个建筑的特征变化明显。

下面我们将从400比较推理加速器和上衣(Groq) ~ 0.5(杰森纳米)。他们给我们想要的所有数据,但有足够的看到一些趋势。列出推理芯片如果他们发表了上衣和ResNet-50一些批量大小的性能。芯片是下令从ResNet-50吞吐量最高到最低,两列显示批= 1吞吐量和批= 10 +的吞吐量。一批大小并不是给我们假设它是一个大型的批处理。

注意,上衣和吞吐量有松散的关联但有些芯片提供比其他人更吞吐量从更少的上衣。这是因为架构,SRAM DRAM的大小和数量决定吞吐量也很重要。

吞吐量/上衣:如何有效地利用mac的指标模型
让我们看看吞吐量/上衣。芯片这告诉我们如何有效地使用它的mac电脑,至少对于一个给定的模型。

除了InferX X1的芯片显示他们有多少SRAM (X1已经8 mb)。更多的SRAM和DRAM都将帮助提高利用率的mac电脑但成本。所以最高的吞吐量/上衣不一定是最好的吞吐量/美元:我们需要知道有多少内存使用,增加了成本。

下表显示了ResNet-50吞吐量/上衣降序排列的吞吐量。

吞吐量/ DRAM:如何有效地利用后发的一项指标
接下来我们看看ResNet-50吞吐量/ DRAM(后发展出的数量,而不是gb: DRAM推理主要用于带宽不是能力)。

表在下行吞吐量/ DRAM ResNet-50排序。

吞吐量/ SRAM:如何有效地利用SRAM的一项指标
SRAM的大小可以作为mac大或比该地区所以知道SRAM容量估算吞吐量/美元是很重要的。遗憾的是很少有芯片提供:下面表中只有2和SRAM大小Hailo-8由微处理器报告估计。

估计吞吐量/ $通过绘制吞吐量/上衣和吞吐量/ DRAM然后吞吐量/上衣和吞吐量/ SRAM MB
最高的吞吐量/ $架构将擅长吞吐量/上衣,吞吐量/ DRAM和吞吐量/ SRAM。可用的数据是有限的但我们可以得出一些结论。

我们有最顶部和DRAM的数据,下面我们把它们ResNet-50批= 1然后ResNet-50批= 10 +。

还有一个小上衣和SRAM数据绘制以下ResNet-50批= 1。

结论:为应用程序如何使用这种方法
决定哪些模型,图像大小为您的应用程序和批处理大小是最相关的。

然后问你的供应商给你他们INT8吞吐量的模型/图像大小/批量大小,告诉你他们的上衣,mb的片上存储器和DRAM用于实现吞吐量的数量。策划的结果使用上面的方法会给你洞察吞吐量/ $为您的应用程序的关键组件。



3评论

YanjunMa 说:

很好的总结。快速的问题:
1。公式:上衣= (MAC的数量单位)x (MAC的频率操作)2 x2来自哪里?是它的两个操作/ MAC:多个和加法?

2。也“ResNet-50不可能最好的基准。实际上没有人在应用程序中使用它。”,算法被使用?

Tanj班纳特 说:

ResNet-50基准是一个相对较老的小尺寸和简单的拓扑(卷积,使用早期层专门找到原始的特性)。它仍然是相关的,如果你需要的是一个变种的任务的图像识别中度的图像。其他模型包括GNMT流行毫升基准这些天,NCF,伯特(目前重量级)用于推荐和语言理解等任务。

同时,培训和推理通常是不同的。推理使用派生的网络拓扑的预先计算和组系数,评价措施快速吞吐量。批量大小在这种情况下,利用流水线和将通过管道和可能对应多个观测使用共享ASIC来自多个客户每个需要设置不同。批量大小对学习过程,计算系数,对内存大小和互连带宽有更大的影响。批处理大小不同的问题,小批量往往会吵着和更快,虽然批次太大可能放缓的迭代计算的速度。这篇文章似乎是主要观察推测,交付AI的结束。

YANJUNMA 说:

GNMT NCF,伯特是语言处理、翻译等等。ResNet图像处理。

留下一个回复


(注意:这个名字会显示公开)

Baidu