为什么回退一个肮脏的词汇。
机器学习(ML)推断设备所有的愤怒。几乎每一个新的系统芯片(SoC)的设计开始手机、平板电脑、智能安全摄像头,汽车应用,无线系统,更有一个很大的ML功能芯片上的要求。硅的设计团队,毫升处理能力来添加到现有的菜单处理引擎——cpu、dsp、gpu -袋的设计技巧。
原因是芯片设计团队正在寻找新的解决方案是毫升工作量远比工作负载不同最初优化现有的构建块。cpu的设计是为了同时运行很多线程随机控制代码的随机内存访问。gpu设计画多边形图形应用程序中。和需求方是为了解决矢量数学在一维、二维数组的数据。但是毫升推理工作量主要是由矩阵计算(旋转)在n维张量数据。新计算挑战到放不下旧的计算架构。
大多数设计团队的方法——和大多数商业IP处理器供应商已经解决新的ML矩阵计算问题尝试把新的计算工作负载到旧的平台。这些IP供应商分析现有毫升基准来确定最频繁发生主要运营商毫升计算工作负载和卸载引擎构建(加速器),有效地执行那些选择计算构建块。这种策略的基本理论:如果最常见的10到20毫升图运营商代表95 - 98%的计算工作量,把那些20图运营商预先存在的CPU或DSP允许完全灵活的CPU或DSP安排剩下的图执行,包括罕见的或不寻常的运营商毫升图。IP供应商把这种劳动分工为“运营商撤退”,绝大多数的计算不可编程毫升加速器,但程序上运行“回落”完全可编程CPU或DSP。
的致命弱点——致命缺陷——这种方法假设撤退是罕见的,而不是性能关键型。但仔细看看方法揭示了回退是一个顽皮的词——一个新的F字要不惜一切代价避免。考虑一个SoC的例子,有一个巨大通用applications-class CPU、一个向量DSP对视觉处理引擎调优,和一个4 / s毫升加速器。每个引擎的计算资源可用如下表所示:
矩阵操作加速器上运行速度非常快,利用所有2048 multiply-accumulate单位的加速器。但相同或相似的运营商在DSP上运行32 x慢!CPU是128 x慢。不需要一个先进的机器学习数学学位,即使只有5%的机器学习工作负载需要的总计算回退到CPU小5%突然变成了整个推理执行的性能瓶颈。如果98%的计算火灾快速加速器和复杂SoftMax图的最后一层在CPU上执行100 x 1000 x慢,整个推理时间由缓慢的CPU性能。
撤退只会恶化随着时间的推移。机器学习是快速发展的。2022或2023的参考模型必将取而代之的是新的、更准确和更复杂的ML模型在2025年或2026年就像硅设计今天进入批量生产。那些新的ML模式在三年内可能会有新的算子变异或新的网络拓扑——需要更多的回退到灵活但缓慢的CPU或DSP。总在多核性能,异构加速器架构将降低更多,呈现芯片设计严重表现不佳甚至完全不适合这个任务。这些失败的芯片将听不清的设计师在心里诅咒的词语,因为他们哀叹撤退的失败。回退将他们的粗话。
有一个后备的替代品。加速器本身需要CPU或一样可编程DSP。它必须在c++编程,所以工程师轻松可以添加新操作毫升发展任务。
的从二次曲面嵌合体通用转专业(GPNPU)-可在1、4顶部,16上衣变体——提供matrix-optimized性能你期望从一个ML-optimized计算引擎同时也被完全由软件开发人员c++编程。新的ML运营商可以快速编写并运行“本地”运营商一样快速二次曲面工程师写的。嵌合体可编程的加速器,没有后退,只有快速执行,不管未来新形式的运营商或图形。二次曲面,F词是好词-快,不会过时的,太棒了!
留下一个回复