18.luck新利
的意见

发展人工智能的可扩展平台

我们需要设计能够动态调整处理资源类型(而不仅仅是速度)的系统。

受欢迎程度

火车等大型重型车辆的磨损可能会导致意外的延误和维修,更不用说产生的安全隐患可能会被忽视几个月,直到它们变得至关重要。在过去,维修团队亲自检查火车头的起落架,以寻找应力裂缝和其他异常情况。后来,成像和声纳技术被引入,以发现人眼无法发现的东西。

但如今,运输公司正在利用新的数字技术,在问题出现之前监控车队中的车辆状况,并在问题出现之前提醒司机和维护团队。关键在于人工智能(AI),特别是它机器学习(毫升)的子集。

德国传感器公司Lenord+Bauer是基于人工智能解决方案的行业领导者,铁路公司使用该解决方案来保证设备的安全和最佳工作状态。但关键在于,Lenord+Bauer并没有利用云来分析列车行驶时传感器捕捉到的所有振动、热量和速度数据。它直接在基于Arm Cortex-M的ST微电子STM32微控制器上运行神经网络,并在本地传输结果。

通过将其先进的人工智能解决方案直接在传感器层面, Lenord+Bauer实现了低功耗和低延迟。整体解决方案从STM32Cube。人工智能在2019年CES上推出的先进工具包,能够与流行的深度学习库互操作,将STM32微控制器的任何人工神经网络转换为运行优化的推理。

云、边缘、端点
这种类型的解决方案是当今可扩展人工智能平台的一个主要例子,它利用了人工智能领域的持续改进和创新处理器从云技术一直到边缘和终端系统。如果说人工智能和机器学习的早期是将数据发送到大型云数据中心进行分析和采取行动,那么这种类型的计算如今通过边缘分布到端点设备,降低了成本,降低了延迟,提高了安全性,并改善了客户的体验。

但是,虽然这种分布式计算的方法看起来是一种自然的进化,但实际上它正在改变嵌入式系统中几十年的设计方法。

嵌入式系统是在性能参数的范围内开发的,这些参数是基于功率、成本、散热、尺寸、重量和任意数量的可衡量指标,这些指标可以相互权衡以满足既定的目标。过去,嵌入式开发人员的角色是编写一段安全、可预测的代码,能够在这些性能参数的限制内执行其任务。因此,对于许多嵌入式工程师来说,代码的特性在部署后可能会改变的想法仍然是噩梦。

可扩展的人工智能平台是新的标准
然而,这正是ML的本质;精度通常与硬件能力密切相关。为了遵守约束参数而试图对ML模型的构建方式施加任何限制,您可能会不可挽回地损害其准确性。在对机车磨损进行关键任务监测的情况下,这是不可接受的风险。

可扩展的人工智能平台提供了解决方案,尽管这与频率缩放不同,后者是自动调整微处理器的频率以消耗更少的功率或提供更多的处理能力。这项技术在十多年前首次开发时对嵌入式系统来说是一个好消息,但它本质上只是一个滑动的尺度,允许固定架构根据手头的工作运行得更热或更冷。这种扩展不足以提供目前正在开发的运行ML模型的嵌入式设备所需的功率和性能。

相反,我们需要设计能够根据给定任务动态调整处理资源类型的系统——改变工作量,而不是简单地增加或减少工作量。原因很简单:推理的路径上布满了变量,而且有这么多的概率层需要处理,其中任何一个变量都可能完全改变路径。

以自然语言处理和语音识别为例:说话者的声音和节奏都将在模型的有效性中发挥作用,但这些参数之间也可能相互作用,从而导致在不同条件下的不同体验。单纯地增加时钟频率以满足推断目标并不能保证,而且可能会超出功率预算,而不会提高精度。

神经处理单元(npu)可以处理人工智能的重物
虽然目前的CPU架构可以并且正在被用于ML,今天的架构几乎肯定不能提供最优的执行方式。是的,模型可以在使用大多数处理器中常见的ALU特性的cpu上运行。它们还可以从高度并行的体系结构中受益,这些体系结构具有这些特性的大量多个实例,例如gpu。但很明显,gpu并不是我们能够想到的执行ML模型的最佳方式。

事实上,我们已经有了神经处理单元(npu)的例子,半导体行业正在努力开发全新的架构,以更有效地执行ML模型。这些“先有鸡还是先有蛋”的场景很少会以最优的解决方案结束,在某种程度上,硬件或软件要么变得固定,要么让另一个继续前进。解决这个问题的正确方法是使用一个通用的软件框架,该框架可以在兼容但可扩展的硬件平台上使用,这样两者就可以同步发展。

灵活的异构架构
通过这样做,支持智能计算所需的可扩展AI平台可以从网络的核心扩展到边缘,而无需将架构锁定在固定的平台上。Project Trillium是Arm的全包异构ML计算平台,包括核心和软件。Project Trillium最初是为了满足关键任务终端设备(如用于机车维护或医疗保健的终端设备)所需的硬件需求而开发的,现在正在扩展以解决网络中每个点的ML问题。

这里的通用软件平台是Arm的神经网络软件库Arm NN,它可以在Arm处理器平台上运行,也与领先的第三方神经网络框架兼容。硬件包括现有的手臂Cortex-A武装马里GPU为AI和ML增强的处理器,以及用于ML加速的全新Arm Ethos处理器。

计算它的价值所在
就可扩展的AI平台而言,ML可以并且确实在Cortex-M类的小型和资源受限的处理器上运行,并且像Mali gpu一样功能丰富。然而,真正可扩展的AI平台需要满足ML从云到边缘再到端点设备的所有需求,这就是处理器进化的下一步。Arm Ethos等神经处理单元代表了新一代处理器架构,将在更多应用中支持ML。

对于工程团队来说,完全访问他们在项目进展中遇到的所有需求是非常罕见的。当ML成为混合的一部分时,就更没有机会固定功能了。要构建一个能够满足未知但可预测的需求的平台已经很困难了,这些需求可能会在推出一年后出现。使用ML,应用程序的可预测性就丧失了。选择由mcu、cpu、gpu和npu组成的可扩展架构,将有助于面向未来的硬件平台对抗尚未构思的新软件应用程序。

这里有很多未知因素,比如我们将在未来创建什么样的ML模型,它们需要多少计算能力才能提供所需的精度,计算机科学家将以多快的速度改进模型,从而降低模型的功耗——所有这些考虑因素都对底层硬件有直接影响。

我们唯一知道的是,最终用户会有需要满足的期望,而满足这些不断变化的期望将需要一个灵活和可扩展的平台。



留下回复


(注:此名称将公开显示)

Baidu