中文 英语

权力机器学习模型

预测所需的力量或能量运行一个AI / ML算法是一个复杂的任务,需要准确的功率模型,没有今天的存在。

受欢迎程度

人工智能和机器学习被设计成一切,但芯片行业缺乏足够的工具来衡量一个算法使用多少力量和精力,当它运行在一个特定的硬件平台。

丢失的信息是一个严重的限制器能量敏感设备。随着旧的格言,你不能优化无法测量。今天,重点是功能和性能,但这些越来越受到电能和热能的考虑。表现在这种情况下不仅意味着你可以做一个推理速度或其他可衡量的工作单元,而且操作的准确性。算法的复杂性和数据集用于培训参与这个方程。

这个方程对每一个阶段的影响在ML系统的开发和部署,从算法开发一个算法的映射到硬件架构,和到芯片的设计和实现。今天,这些阶段之间的耦合是几乎不存在。

虽然硬件团队生活的约束内硅能做什么和他们希望的用例支持,他们几乎没有帮助他们更大的计划的事情。说:“人工智能工作负载不断改变亚斯Mitra产品营销总监Tensilica节奏人工智能产品。“当你做预算,如何预测,因为你的工作负载可以从根本上改变?如果我建立了一个SoC芯片,你如何看得很远,说,“这是我所需要的力量,热容。和你如何预算吗?”

其他人也同意。“能耗的预测给定的工作负载下的芯片是一种最复杂的任务我们行业必须解决的今天,“Guillaume Boillet说,产品管理主管Arteris IP。“这需要一个非常详细的硬件和底层交通的代表。今天,预测可能不准确,与仿真通常所使用的工具。为了让他们成为可行的,实际数字预计将在20%的硅数字。”

这是一个很难达到的指标。“这是相对简单的设计一个毫升加速器,”哈立德Maalej说VSORA CEO。“这是很难设计一个有效的一个。估计pre-silicon功耗是至关重要的,但难以得到准确的结果。功耗息差广泛,最坏的情况坐在远离典型消费。公称规格计算能力和功耗不告诉整个故事。”

权力不是今天的重点。“今天的重点是得到工作的东西,”说Derya艾克,弧处理器Synopsys对此工程经理。“然后是功能性能,功率效率。当把电池驱动的设备功能,或边缘设备,电力成为一个关键的标准。得到估计的误差是5%或20%将使最终产品的大事。”

越来越多的设备成为电量有限。“权力消费确实是设计师的一个关键指标评估机器学习,”史蒂夫说罗迪,产品营销副总裁机器学习小组的手臂。“推理工作负载,无论是在数据中心或端点设备,往往能耗受限。与不间断设备尤其如此,推理工作负载不断运行,或在高计算破裂。”

这有一个伦理方面。“好权力模型不是系统设计的必要条件,他们也非常重要的“绿色未来”的讨论在欧洲和北美,”安迪Heinig说,组长为高效先进的系统集成和部门主管弗劳恩霍夫电子学IIS的自适应系统分部工程。“引入新的人工智能系统的整体功耗会增加全球电子元件如果没有补偿减少应用程序中的一些能量。之间的比较估计AI系统的能源消耗和减少整个系统的能量需要良好的动力模型。他们还应该考虑软件和硬件方面,因为人工智能系统显示最好的性能值如果他们co-optimized在一起。”

软件增加了几个新变量的权力问题。“如果我有一个算法,我需要找到一个方法来运行它在我的硬件和软件和编译器在这里发挥作用了,”节奏的Mitra说。“不仅仅是硬件,这就是为什么这是一个棘手的问题。它需要一个硬件/软件合作设计哲学。如何将工作负载很多取决于编译器,或工作负载映射器,实际工作负载分区,并在您的硬件。”

另一个变量可以产生巨大影响,。“当你看着毫升,有一个新的自由度,其他许多设计没有,”罗伯Knoth说节奏的产品管理总监。“你可以改变你想计算的准确性。你可以查看数据准确性,和不同的实现来完成这些的PPA扫描精度,突然你开始看完全不同的设计架构和那些得到实现。”

今天,最好的我们能做的就是看流的各个部分来理解他们对最终结果的影响。

架构的硬件
今天超过100 AI加速器正在设计,每一个试图成为一个给定类型的最优算法或应用程序。

“一个AI加速器可能带来大量的乘数参加晚会,但如果数据无法移动,有效地从这些乘数,任何性能预测窗口出去,”拉塞尔·克莱恩说,HLS平台项目主任导师,西门子的业务。“事实证明,对于大多数神经网络,数据的运动特性,重量、偏见,中间结果,更重要的是最终的性能和能力比自己操作,增加和积累。在这些网络规模增大时,经常可以看到几百兆字节,甚至g的重量数据,需要加工一个推论,拥有大量中间结果需要存储在某个地方。”

几乎没有分歧的重要性得到内存架构正确。“移动一个字节的数据时有时无芯片烧伤一个数量级(或更多)更大的权力比执行MAC操作相同的字节,“胳膊的罗迪说。“利用知识,数据移动和内存访问控制能力,分析能力的一个给定的网络变得更容易比试图模拟和测量详细的力量。”

仍然需要了解每一个字节的数据将会被移开。“幂建模需要运行非常耗时的EDA工具在逐周期的基础上,“说杰夫•泰特的首席执行官Flex Logix。“这不是要实际的神经网络模型,可以用3000亿MAC操作处理单个像素的图像。不确定性和ML加速器(缓存争用总线争用等),获得准确的功率估计没有运行在硬件将是非常困难的。”

一些加速器目标单一算法。“你需要一个灵活的架构能够应对变化的应用程序,“说Synopsys对此艾克。“客户可能想要使用一个定制的图表,并想知道的性能和功率效率,在一个特定的硬件。这是选择等影响精度,因为规定的计算和数据路径的要求。如果你没事要降低精度,你可能的方法来优化您的硬件。”

这只是一个硬件体系结构和编译器的方式是紧密耦合的。“你会有最大的对性能的影响和权力通过保持油门而不是本地的中间结果写回主存,“导师的克莱恩说。“这往往涉及多个层次的缓存和战略的操作顺序。期间任何最小化了数据移动计算性能来说是一个重大胜利和力量。”

有时可能要求特殊功能的硬件。“的关键因素之一,当设计一个人工智能加速器,是分布式的算法最终将芯片和频率同步需要发生,“Arteris IP的Boillet说。“举个例子,直接影响network-on-chip和总功率信封,取决于这些体系结构的选择,可能需要定期广播数据在整个芯片——或者更有针对性的多播节点将照顾算法的下一步。”

估计
性能和功率优化对于一个给定的算法定义的平台上仍然是很难确定,因为无数不同的编译器可以做的事情,假设硬件架构有一定的灵活性。

三个主要因素对能耗产生影响,假设一个确定性的网络。“大部分的力量将消耗在MAC操作和本地内存操作对他们来说,“Flex Logix的泰特说。“详细的实力估计可以竞选high-MAC-utilization层和一个lower-MAC-utilization层。然后任何给定的MAC利用层可以插入。第二大电源将DRAM流量。功率能详细建模高带宽和低带宽流量。然后,对于每一层,可以插入给定的预计DRAM交通层。最后是作为PCIe链接。权力可以被建模的时候传入的图像被收到,然后建模的时候空闲的联系。”

这一切都很简单。“如果一个团队可以负担得起时间和精力,他们在技术上可以构建一个电源性能概要工具,”Mitra说道。“他们可以建立起足够的启发式,这样如果我扔一些新的工作负载,它可以计算DDR之间将消耗了多少电能,处理元素,和内部缓冲区,实际上做MAC计算。”

但这只适用于确定性的工作负载。“一些新的ML算法将不确定性、“导师的克莱恩说。”,而不是运行一组固定的乘积累,有时只有网络将被评估的一部分。想象一个物体识别算法处理视频流。一个不需要处理每一帧的所有像素。如果只有几个像素改变,它们可以逐步处理。现在算法的性能和权力将视。其他优化涉及网络的修剪,有时明显。动态方法进行修剪,即。,如果一个特定的感知器产生一个负面的结果,别烦评估其他感知器。 This makes the network’s performance and power dependent on the input data, therefore harder to predict.”

需要评估功率性能权衡各种平台意味着必须有某种方式告诉这平台是最合适的。但是直到我们有真正的权力模式,产业必须依靠基准。“训练集的数据是有多少这些算法的基础工作,“节奏的Knoth说。“我们将开始看到更多的协议在一定的标准或某些标准的工作负载。如果你不这样做,这将是一个人的词与另一个人的。你不会看到这些标准在一夜之间出现,但这是一个逻辑终点,为了使它更有效率。”

优化精度
的一个新的自由度,在算法开发和ML编译器的优化,是精度。

“二分法的研究,人们提出新的网络旨在提高准确性,”Mitra说道。“边缘设备电量有限,或资源受限,你必须问一个问题,“我需要多少精度?如果我可以发现一只猫有90%的概率,和90.1%或91%,它可能无法起到很大影响你。人之间的二分法是使新网络,与那些试图映射网络和工作负载在真正的硬件上,在实际平台上,真正的硅,一个真正的IP。我做了这个网络,我做了这个更好,但是我真的做得更好吗?我真的伤害从权力的角度来看吗?”

然后,从底层硬件平台的算法有很大的差距。“如果我改变算法,将反映在许多东西,”艾克说。“最大的因素是如果我的准确性或图结构改变。我有更深或更多层进来吗?这些会影响力量。没有直线路径得到精确的估计。这取决于你做的大的变化。设计师通常衡量一个卷积层的能源效率的一个图表,如多层SegNet图(见图1)。常见的陷阱是推断结果完全图。你需要知道硬件,应用程序将如何被映射。你需要将多学科联系在一起。”

图1:SegNet架构实现了多个层。根据位置或图结构,同一层可能需要不同的能量,所以没有单层可以外推到代表整个图。来源:Synopsys对此

图1:SegNet架构实现了多个层。根据位置或图结构,同一层可能需要不同的能量,所以没有单层可以外推到代表整个图。来源:Synopsys对此

虽然算法可能太脱离实际的硬件水平,许多毫升编译器正在开发由硬件开发人员,因此他们应该知道如何优化目标可用的硬件特性。

“量化和数字表示法是巨大的权力和性能的影响,”克莱恩说。“这发生在两个方面。首先是运营商更小。乘数的大小大概是与他们的输入操作数的平方大小成正比。32×32位乘数约为4倍面积比16×16乘法器,和大多数ASIC库,权力将规模甚至比区域。第二受益于量化数据移动。如果你的数量小,减少数据移动。从32位表示8位意味着1/4的数据移动,有1/4重量和中间结果的记忆。和1/4的数量来访问数据总线周期。”

和这些优化往往走上极端。“考虑设计有一个不间断的部分芯片侦听唤醒的话,“Knoth说。“这是一个非常真实的权衡如何解释这个词,准确和你要画多大的权力,因为你总是坐在那里待机模式。”

仍然有大量的研究,可以帮助优化硬件。“你也不想限制你的思维,表示需要线性的,”克莱恩说。“毫升应用程序可能需要大量的精密0,但是当数量大于或者小于1,不太精确的很好。存储数据指标为一个查找表实现这一点的一种方式。”

实施的影响
幂数不能当芯片设计,他们将改变随着时间的推移算法雅致,或编译器改进。“峰值功率是绝对重要的,以确保你的电路触及某些操作,你不会有任何电源完整性问题,“Knoth说。“你还需要看诸如最大平均功率,以确保你不会有一个热的问题与设备或包。你必须看看备用电源,尤其是如果它是由电池供电。你必须看他们所有人。但是他们首先对交通设备上的某些基本假设。”

也有其他因素。“你应该看看多个应用程序和各种应用程序的能耗,没有惊喜,”艾克说。“通过了解您的设计,从分析应用程序,你可以看到你可以得到的峰值功率。这是我应该使用电网的尺寸。不取一个数据点,但找到一个好的上基于分析。”

系统可能需要保护内置的意想不到的情况下,功率或温度建立超出预期,。“在移动景观有很多电压/频率组合,”Mitra说道。“硬件可以运行在不同的电压频率配置文件,这意味着我可以选择这个电压,然后‘这’是我的频率,和‘这’产生的功率和性能”。

结论
今天,没有可靠的方法去魔术20%精度可靠的决策。决策是在选定的样本,但是并不能保证这些产品的生命周期保持不变。

最终可能需要的是一个数字的双胞胎的算法变化可以评估的性能和功耗对于一个给定的设备。“人们只能够意识到的事情,“Knoth说。“我们看到的功能验证合并的设计和实现,这样你就可以开始给几乎实时反馈的PPA影响算法运行在这些加速器,这就是你构建一个整体更好的产品。”

在某种程度上,这将会改变。“在未来,公司将提供可靠的电力模型network-on-chips AI上使用加速器,“Boillet说。”,现在我们为了完整起见我们计划依赖于人工智能算法来概括这些模型”。

相关内容:

下一个大的飞跃:能源优化

低功率仍然领先,但能源成为未来的重点



1评论

凯文·卡梅隆 说:

计算能力需要analog-capable模拟器,例如Xyce和硬件模型,包括V &我的功率计算。

有趣的是,行为模型,对混合信号电路看起来很像SW神经网络中的神经元,因此,无论你使用的HW评估你的得到,也可以用来计算能力。

您还可以使用人工智能技术从香料生成节能行为模型描述水平,这是一个引导程序的过程。

留下一个回复


(注意:这个名字会显示公开)

Baidu