18.luck新利
的意见

噩梦燃料:毫升硬件加速器的危害

固定功能加速器只嵌入到硅保持有用如果模型不采用新的操作符。

受欢迎程度

主要设计大量的硅设计团队在2023年面临的挑战是建立正确的数量的机器学习(ML)性能功能到今天的硅带出来的艺术的状态(SOTA)毫升推理模型将在2026年及以后看起来像当硅将在批量生产中使用的设备。鉴于持续快速变化的机器学习算法,使设计选择一个不确定的未来的工作负载可能是最大的一个设计头痛,SoC架构师可能面临在今天的市场。

绝大多数的媒体报道惊人的进化的ML侧重于看似无穷无尽的增长模型大小和训练数据集的大小。其中一个最常被引用的引用是图表从OpenAI显示了对数SOTA模型训练时间增长,经常扩展到几个星期时间整个机架的培训硬件。但一个模型是否需要培训一天或一个月训练的后果没有设计师只会运行的设备推理训练有素的模型。

另一大部分媒体报道的焦点是生成的大小模型,表示为模型参数的总数,又名“权重”模型。总模型尺寸确实有一些影响系统资源投入的选择优势设备或消费产品,主要是确保足够的片外存储器(DRAM)的系统。但只要明天的工作量SOTA功能类似于今天的参考模型,SoC设计师并不在乎未来模型双或四权重:参数之间的权衡和推断每秒——大模型相同的处理核心上运行慢,不会影响计算的选择IP核心的硅。

如果SoC架构师并不真正关心毫升的绝对规模模型,或关心数据科学家花了多少时间来训练模型,什么方面的ML模式进化她关心吗?答案:积木——机器学习运营商——最新的ML网络!如果运营商不改变从现在到2026年,但只有复杂性和规模变化,架构师可以肯定,她的选择计算的IP将继续适合功能。这是为什么呢?绝大多数的推理加速引擎(又名“转专业”)今天在soc是固定功能加速器搭配可编程序cpu,需求方或gpu。这些转专业设计将最常见和最计算密集的图形操作的可编程的核心,离开了可编程核心运行少见或罕见的部分毫升图。

ResNet50已经过时了

越大的百分比图上运行的高性能转系统性能越好。事实上,几个供应商的商业转专业是自豪地宣称他们的营销文学”100%的ResNet50运行在我们的转专业,释放您的CPU关注其他任务。”(注意言外之意,如果你最终生产毫升网络不能运行转专业,100%的工作量下降系统CPU,暴露的弱点的转专业加速器)。

让我们看看这意味着什么为转专业运行“整个ResNet50”图。2015年ResNet50介绍了学术论文。到2017年,它已经成为一种标准CNN-based图像分类器的性能指标。它取得了这一地位,因为精度与网络是可能的,但也因为它是经得起各种毫升加速器加速硬件在边缘,端点和消费设备系统。许多不同类型的简单的运营商ResNet50解释了为什么它是相对容易加速。

的ResNet-50 ONNX Op列表只包含基本8毫升运营商:

  • 添加
  • 卷积
  • Gemm
  • GlobalAveragePool
  • MaxPool
  • Relu激活
  • SoftMax

此外,ResNet50雇佣了只有三个直接的曲线玲珑的变体:7×7 Conv跨步2;3×3 Conv甚至1×1 Conv。SoC架构不支持的卷积7×7毫升加速器仍然可以提供不错的性能,因为只有第一层使用7×7 Conv和所有其余49层使用更常见,容易实现3×3和1×1曲线玲珑。此外,大多数的实现ResNet没有试图加快复杂SoftMax最后一层转专业加速器,而是通过这最后一步发现一种强大的主机应用程序处理器CPU规范化值和现在的答案最有可能的检测项目。

许多soc设计在过去的几年中与转专业加速器ResNet50用作基准标准。soc的建筑师可以在夜里睡得好,只要cnn的快速进化不太远从运营商的类型(和他们的特定的变体,如跨步深度,等等)烤的加速器。几年来在2015年引入ResNet之后,原来是真的,SoC设计师睡好,田园诗般的梦想,快乐的梦想。

运营商生产

甚至几年的ResNet家族保留指标相关性,常用的快速变化和生产经营者在乌鲁木齐的背景。ONNX交换格式给出了一个试金石运营商的变化的步伐。诞生于2017年,ONNX进展通过19个不同版本的官方支持运营商在短短6年,与今天的ONNX OpSet19包含183个运营商类型,每个subvariants。与那么多的生产经营者使用的数据集科学家,它只是一个时间问题ResNet SoC基准霸权统治的结束。

挑战的新模型

不断生产容易使用毫升运营商SoC架构师的培训框架是噩梦的燃料。固定功能-因此不变的加速器嵌入到硅只有保持有用和相关的如果SOTA模型不使用不同,新操作符。这些芯片设计者的噩梦成为许多真正的2021年愿景的引入变压器(ViT)类的模型。提供优越的结果和引领新一波的基准测试中,服用维生素类模型使用一套截然不同的基本毫升运营商。比较剪辑维生素b 32和Resnet50鲜明的详细地展示了这种变化。

只有5运营商共享类型之间的共同点2017 SOTA基准模型而且今天的2023 SOTA基准模型。24的运营商在今天的维特模型,只一个加速器来处理层中发现ResNet50只能运行5的24层中发现维特-不包括性能最有效的操作符的32×32步32扩张卷积。

底线——2017年的加速器优化ResNet将从根本上打破——几乎无用的——在今天的SOTA ML模式运行。一定要重复历史。当然我们应该预测,2027年将预示着新模式与新操作符将呈现一个固有的加速器优化对于今天的维特同样注定要提早退化。因此今天SoC架构师应该做些什么来应对这个噩梦吗?

完全可编程GPNPU -性能+可编程性

幸运的是睡眠不足的芯片架构师在全世界范围内,二次曲面的最近推出了嵌合体通用神经处理器(GPNPU)独特的解决性能和灵活性的权衡。优化机器学习推理性能,可在1、4顶部和16顶部配置,妄想GPNPUs交付高,持续multiply-accumulate (MAC)的性能,同时保持完整c++编程。

今天任何运营商——和任何未来运营商可以快速而方便地设定由软件开发人员在嵌合体内核上运行速度,利用所有的matrix-optimized MAC GPNPU资源。妄想GPNPU动力设备今天的ML模式有效运行,也将明天的模型高效地运行。学习更多在www.quadric.io



留下一个回复


(注意:这个名字会显示公开)

Baidu