中文 英语

芯片中人工智能的新用途

ML/DL增加了边缘设计的复杂性,但它也增加了提高功率和性能的新选项。

受欢迎程度

人工智能正被部署在许多新应用中,从提高各种终端设备的性能和降低功耗,到出于安全原因发现数据移动中的违规行为。

而大多数人都熟悉使用机器学习而且深度学习为了区分猫和狗,新兴的应用程序展示了如何不同地使用这种功能。例如,数据优先级和分区可用于优化芯片或系统的功率和性能,无需人工干预。各种类型的人工智能可以在整个设计和制造流程中使用,以捕捉人类无法捕捉的错误或缺陷。但所有这些新的组件和功能也使芯片设计更加复杂,即使是在更成熟的节点上,因为概率取代了有限的答案,变量的数量增加了。

“当你把人工智能移到边缘时,边缘开始看起来像数据中心,”微软高级产品管理总监弗兰克·费罗(Frank Ferro)说Rambus.“基带也有很多相同的处理功能。同样,在内存需求方面,我们看到许多5G客户的带宽已经用完,并在网络边缘寻求HBM。但是,网络中有更多的可配置性,而不是使用云计算,您可以管理工作负载。平衡这些工作量非常重要。”

不过,人工智能世界里没有什么是简单的,就像人工智能芯片设计师们已经认识到的那样。“在人工智能设计中,有许多问题需要回答,”微软战略营销经理罗恩•洛曼(Ron Lowman)表示Synopsys对此.“你想处理什么算法?”你的电力预算是多少?你想达到的精确度是多少?在图像识别应用程序中,您可能不需要32位浮点处理器。低成本的16位图像芯片可能就可以了。如果你只需要92%的精度,低成本的芯片可能会削减你的整体预算。如果你知道自己想要实现什么,那么采用IP方法将会有很大的优势。您可以选择正确的AI处理器、正确的内存(SRAM或DDR) I/O和安全性。选择正确的IP很重要,但建模和基准测试也有助于开发者优化AI解决方案并减少错误。”

对于任何先进的芯片来说,设计挑战都会迅速增加,更多的变量需要更好的模型、更多的工艺步骤和更多的时间。罗兰·扬克(Roland janke)说:“你从芯片将要表现的非常复杂的想法开始,然后你看看对芯片的不同部分是否有不同的要求。弗劳恩霍夫IIS的自适应系统工程部。“在过去,你只需要设计一些东西,开发它,然后把它贴出来,看看它是否有用。这已经不可行了。你需要一个完整的过程。从一开始你就需要考虑什么是可能的失败模式。你甚至需要从模拟的有限元方法开始,这通常在过去没有做过,你从非常粗略的模型开始,有你想要集成的功能。所以如果你有一个MATLAB模型,它不能反映芯片不同部分之间的物理相互作用。你需要在开发过程的早期整合不同的模型——物理模型、功能模型——来看看你的概念是否足够功能性。”

移动的部分越多,这就变得越困难,特别是当这些部分是针对特定数据类型和用例定制或半定制的时候。但好处是,更好的算法和计算元素也允许在更小的占用空间内处理更多的数据,并且比过去的实现少得多。反过来,这使得处理能够更接近数据源,在数据源中可以使用它来确定哪些数据是重要的,哪些数据应该在任何特定的时间点上进行处理,以及哪些数据可以丢弃。

临界点
这些变化本身大多数都是增量的和进化的,但它们共同支持跨边缘的推理和训练,在那里,一系列异构架构开始出现。通过利用各种类型的神经网络,可以加快处理速度以达到有针对性的目的,针对不同的应用具有不同程度的准确性和精度。


图1:复杂的AI过程可以被分解成AI堆栈。资料来源:麦肯锡公司

对于任何执行复杂算法和计算的人工智能芯片,都有几个关键要求。首先,它们需要能够并行处理数据,使用多个计算元素和宽数据路径来减少延迟。在许多情况下,这还涉及到一些靠近计算元素的局部内存,以及高带宽内存。其次,这些设备需要根据尺寸、成本和功率预算进行优化,这通常需要根据预计工作负载进行大小调整的高吞吐量架构。反过来,这需要大量的权衡,需要为特定的用例进行平衡。第三,这些架构通常涉及混合处理器来管理复杂的数据流和电源管理方案,包括cpu、gpu、fpga、eFPGAs、dsp、npu、tpu和ipu。

“在设计中,开发人员需要考虑训练、推理、低功耗、连接性和安全性的要求,”ibm的主要软件产品营销经理丹尼·沃森(Danny Watson)说英飞凌的物联网、无线和计算业务部门,“这种方法实现了需要本地快速决策的新用例,同时满足当今物联网产品的功率预算。”沃森指出,关键是收集正确的数据,以便应用程序能够利用这些数据,使他们能够利用技术改进。

人工智能无处不在。
对于芯片公司来说,这是一件非常重要的事情。根据最新的报告根据Precedence Research的研究,整个人工智能市场将从2021年的870亿美元增长到2030年的1.6万亿美元以上。这包括数据中心和边缘设备,但增长速度非常快。事实上,如今AI是一个非常热门的领域,几乎每一家大型科技公司都在投资或制造AI芯片。其中包括苹果、AMD、Arm、百度、谷歌、Graphcore、华为、IBM、英特尔、Meta、NVIDIA、高通、三星和台积电。这样的例子不胜枚举。

这个市场五年前几乎不存在,十年前大多数公司都在考虑云计算和高速网关。但是随着带有更多传感器的新设备的推出——无论是汽车、智能手机,甚至是内置了某种程度智能的电器——产生了如此多的数据,以至于需要围绕数据的输入、处理、移动和存储设计架构。这可以在多个层面上发生。

该公司高级技术营销经理保罗•格雷科夫斯基(Paul Graykowski)表示:“在人工智能应用中,各种技术正在被部署Arteris IP.“最近一家客户开发了一种复杂的多通道ADAS SoC,可以处理四个通道的传感器数据,每个通道都有自己的专用计算和AI引擎来处理数据。同样,新的AI芯片架构将继续变化,以满足新应用程序的要求。”

从大到小
到达结果的时间通常与距离成正比,距离越短,性能越好,功耗越低。因此,尽管大规模数据集仍然需要超大规模数据中心来处理,但芯片行业正在共同努力将更多的处理转移到下游,无论是机器学习、深度学习还是其他一些人工智能变体。

在深度学习领域,速度是至关重要的,其次是结果的准确性。Cerebras的产品管理总监Natalia Vassilieva报告说,葛兰素史克在其表观基因组语言模型中使用晶圆级设备,提高了药物发现效率。在一个场景中,葛兰素史克能够将基于深度神经网络的大型化合物库虚拟筛选时间从GPU集群上的183天缩短到Cerebras设备上的3.5天。该“芯片”拥有超过2.6万亿个晶体管,85万个人工智能优化核心,40 GB的片上内存,每秒20 PB的内存带宽(1pb等于1024 tb)。它还消耗23千瓦的功率,并使用内部闭环,直接到芯片的液体冷却。

Graphcore采用了一种不同的方法,引入了智能处理单元(IPU)技术。通过使用多指令多数据(MIMD)并行和本地分布式内存,IPU可以提供22.4 PFLOPS(每秒1 petaflop等于每秒1000 teraflop),而只需要空气冷却。此外,IPU在单精度下的理论算术吞吐量高达31.1 TFLOPS。它比A100的624 TFLOPS快得多。在Twitter进行的一次测试中,IPU的表现优于GPU。


图2:IPU技术利用多指令、多数据(MIMD)并行性和本地分布式内存,性能优于GPU。来源:Graphcore

人工智能也可以小型化。基于人工智能的智能物品,也被称为物的人工智能(AIoT)/嵌入式AI,正在蓬勃发展。根据评估报告在美国,尖端人工智能硬件将从2020年的70亿美元增长到2030年的390亿美元。人工智能为边缘计算、网络端点和移动设备增加了智能。随着物联网的发展,越来越多的应用程序正在使用嵌入式人工智能。其中包括可穿戴设备、智能家居和智能遥控器,包括一些使用语音识别的设备。同样依赖于嵌入式AI的还有AR/VR游戏、智能汽车面板、物体和运动检测、家庭医疗保健、抄表、智能工厂、智能城市、工业自动化和智能建筑,包括控制和能源管理。这样的例子不胜枚举,只是受限于人们的想象力。

Tensilica AI产品的产品营销总监Suhas Mitra表示:“人工智能能够在本地更快地处理数据,从而提高物联网计算的效率。节奏.“这包括提供更好的响应时间和更小的延迟,因为生成的数据也会立即在边缘设备上处理。执行AI边缘处理将更加可靠,因为通过无线或有线连接不断向云发送大量数据可能并不总是可能的。它还减轻了在云中存储和处理大量数据的压力,这些数据可能包含个人和敏感信息。对于将用户信息发送到云端的隐私问题,可能会导致不可能在未经同意的情况下获取上游数据。进行更多的边缘计算可以延长电池寿命,因为当使用人工智能方法时,一些计算在边缘平台上需要更少的周期。因此,消耗的能量更少,散热也更低。”

在进行推理之前,所有的AI芯片都需要经过训练。虽然数据集通常非常大,需要大型数据中心进行训练,但进一步的训练可以在个人计算机或开发系统级别进行。开发人员将经历一个艰苦的过程,以确保实现最佳的推理算法。许多人工智能芯片制造商为客户提供了培训合作伙伴名单。即使有顾问的帮助,开发人员仍然需要为咨询时间付费并进行培训工作。

一个更简单的方法是使用预先训练好的模型来实现,比如Flex Logix的EasyVision平台。“使用预训练的X1M模块芯片,开发人员可以绕过培训过程,直接进行产品开发和测试,”ibm推理营销高级总监Sam Fuller说Flex Logix.“预先训练的解决方案已经经过了现场测试和验证,这比开发人员的试错方法更有效。通常,专用的预训练芯片比普通的cpu效率更高。”

想得更小
在更小的设备中包含AI的可能性也在增长,这要归功于tinyML基金会建立的微型机器学习,以支持在mW范围内运行的嵌入式设备上的机器学习和数据分析。其中许多设备可以在视觉、音频、惯性测量单元(IMU)、生物医学等领域执行ML。此外,它还提供了一个名为ScaleDown的开源神经网络优化框架,以简化将ML模型部署到tinyML设备上。

TinyML可以在任何可编程AI芯片上运行,包括Arduino板。Arduino的使命是为爱好者、学生和教育工作者提供电子设备和软件。经过多年的发展,基于Arduino的解决方案如今已应用于许多工业领域。但结合tinyML和Arduino硬件可能会提供非常低成本的嵌入式人工智能解决方案。典型的硬件成本不到100美元。

在这些微型设备中设计人工智能的挑战之一是功率预算。Synaptics已经接受了开发低功耗人工智能和传感器芯片的挑战。Synaptics负责低功耗AI产品线的高级产品经理Ananda Roy表示,该公司的Katana AI SoC能够进行人员检测/计数和跌倒检测,并可以在24 MHz或更高功率的90 MHz下运行30 mW的主动AI视觉推理。深度睡眠模式消耗小于100 μ W。总的来说,它比其他人工智能芯片更节能。为了实现高效的电源管理,神经处理单元(NPU)依赖于具有多个内存库的内存架构,可以在不使用时设置为超低功耗模式,并可扩展操作电压和处理器速度,就像当你需要让汽车更快时踩油门一样。

FlexSense是一款用于人工智能应用的传感器芯片,其设计结合了低功耗RISC CPU和模拟硬件前端,该硬件前端经过高度优化,可有效转换电感和电容传感器输入。与机载霍尔效应和温度传感器一起,它由四个传感器组成,用于检测触摸、力、接近度和温度等输入,所有这些都在一个小封装(1.62 x 1.62 mm)中,仅使用240 μ W,或在睡眠模式下使用10 μ W。传统的设计需要四个集成电路。


图3:低功耗传感器采用小封装(1.62 x 1.62 mm)。它可以替代4个ic。来源:新思国际

安全问题和改进
在安全方面,人工智能既是一个潜在的漏洞,也是一个潜在的解决方案。随着人工智能芯片针对特定用例进行优化,以及算法的更新,行业的学习减少,攻击面扩大。但人工智能也可以用来识别数据流量中的异常模式,发出警报或自动关闭受影响的电路,直到进行更多的分析。

恩智浦的产品经理Srikanth Jagannathan指出了正确组合功能、芯片安全性和电池供电设备低功耗的重要性。i.MX AI芯片将Arm的低功耗Cortex-M33与Arm TrustZone和NXP的片上EdgeLock、嵌入式ML和多个I/ o结合在一起。预计耗电量将低于2.5瓦。然而,它能够提供0.5 TOPS的性能(1 GHz下512个并行乘法累加运算)。


图4:i.MX AI芯片将Arm的低功耗Cortex-M33与Arm TrustZone和NXP的片上EdgeLock、嵌入式ML和多个I/ o结合在一起。来源:NXP

凯西·塔夫托,高级产品经理西门子EDA的嵌入式软件部门负责人指出,需要建立软件信任链,但也指出要从硬件开始。目标是防止任何未经过身份验证和验证的代码执行。在她提出的解决方案中:

  • 数据在休息-安全启动根信任和软件链信任访问控制。
  • 数据在运动-安全协议和加密加速。
  • 使用中的数据——通过内存管理单元(MMU)实现硬件强制分离。

塔夫托说:“设备制造商还必须记住,安全问题通常是在设备部署后出现的,这意味着他们需要设计一种可以在部署后更新的设备。”“包括FDA在内的监管机构坚持在cve发布前和发布后都进行管理的策略,以满足医疗设备的安全要求。常见漏洞和暴露(CVE)监控是针对设备中的模块评估新的CVE的过程,允许设备制造商在发现新的CVE时确定适当的行动。虽然制造商可以自己执行这些活动,但如果使用包括安全漏洞监控和补丁的商业软件解决方案,如Sokol Flex OS、Sokol Omni OS和Nucleus RTOS,则会更简单、更容易。”

结论
人工智能芯片将继续发展和扩展,人工智能将以多种方式在这些芯片内部和这些芯片中使用。这将使设计这些芯片变得更加困难,而且从功能和安全角度来看,也更难确保它们在整个生命周期内按预期工作。这样做的好处大于风险还需要时间。

虽然开发人员继续开发人工智能来模仿人脑,但他们离真正能够自己思考的设备还有很长的路要走。然而,有许多方法可以针对特定的用例和应用程序优化这些系统,并不是所有方法都需要人工干预。随着时间的推移,这可能意味着更多的人工智能将在更多的地方做更多的事情,这将带来涉及功率、性能和安全性的设计挑战,这些挑战都难以规划、识别,并最终解决。



1评论

兰斯Harvie 说:

请停止将计算模型称为AI,没有先天智能。

留下回复


(注:此名称将公开显示)

Baidu