中文 英语

AI的架构考虑

如何才能成功地使用定制芯片处理以数据中心或边缘为目标的神经网络?很多钱都在寻找这个答案。

受欢迎程度

被称为人工智能(AI)或机器学习(ML)的定制芯片每周都会出现,每种芯片都声称比现有设备快10倍或消耗1/10的功率。这是否足以取代现有的架构(如gpu和fpga),或者它们是否能与这些架构共存尚不清楚。

问题,或者说机遇,在于机遇空间是巨大的。在构建人工智能/毫升设备方面,有几个问题需要解决:

  • 它的应用或应用范围是什么?
  • 它是用于训练还是推理,推理将在哪里进行?
  • 市场的规模有多大,是否足以支持单一用途的产品,还是需要更灵活?
  • 设计获胜的粘性有多大?新硬件获得优势或算法进步淘汰现有硬件需要多长时间?
  • 你如何创造一个可以保持的显著的竞争优势?

硬件创造一直是一个完全定制的ASIC和通用可编程设备之间的连续体。发生变化的是,新的体系结构类型正在改变处理和内存之间的关系。这意味着现在存在多个连续域。或者从另一个角度来看,它们提供了一个相关的额外自由轴。

“我们在过去三四年里看到的架构创新是我们在过去几十年里从未见过的,”微软公司人工智能产品和研究总监斯泰利奥斯·迪亚曼提迪斯(Stelios Diamantidis)说Synopsys对此.“可编程性将为你提供更大的灵活性,这对自动驾驶汽车环境非常有用。但在你知道你的应用程序不会改变的情况下,超优化也非常有趣。”

对于在数据中心进行的培训,每个人都想要取代数据中心GPU.迪亚曼提迪斯指出:“GPU仍然是一台时间机器。“它仍然是为几何处理而设计的,以孤立和并行流的方式查看顶点。然而,GPU的架构确实已经进化了。与2016年的GPU相比,如今数据中心的主流GPU架构更像是一个从头设计的AI芯片。”

同样适用于fpga现在包含许多固定的功能块。“你会强化AI推理块吗?腾讯人工智能和软件产品营销总监尼克•尼问道赛灵思公司.“或者你会加强特定的5G算法块,以优化特定的小众应用?您必须查看ROI,并确定这是否适用于一个小的细分市场,或者是否可以将其重新用于更大的邻近市场?这背后有一整套策略。”

虽然FPGA正在大力推动数据中心的推理,但还没有实际的解决方案出现。Synopsys验证组工程副总裁Susheel Tadikonda表示:“目前正在制造的大多数芯片都是针对终端应用的专用asic。“考虑视觉。Facebook有自己的AR/VR头盔,里面有他们自己的视觉处理器。这个特殊的人工智能芯片就是针对这个应用的。如果我把它放在汽车里,可能就不起作用了。视觉处理器在做一些不同的事情。它有不同的工作负载。很多asic都是为了满足终端应用的需求。他们都是在一个利基市场上玩。”

多种解决方案可能共存。“我不认为这是一个赢家通吃的市场,”阿里巴巴战略和业务发展高级经理阿努普•萨哈表示西门子EDA.“这是一个不断增长的市场,市场的每个部分都有不同的需求。有gpu的空间,有处理器的空间,有fpga的空间,还有数据中心专用芯片的空间,专用于人工智能。”

随着时间的推移,这种组合可能会发生变化。Untether AI产品副总裁Bob Beachler表示:“当没有现成的解决方案,而且数量还不足以保证实现完整的ASIC时,就会使用fpga。“在AI爆发的早期(2016-18年),只有gpu和fpga可用来加速AI工作负载。从性能角度来看,fpga优于gpu,但代价是易于实现。现在,随着专用AI加速器的出现,使用fpga进行AI的需求减少了,因为与gpu和fpga相比,AI加速器提供了更好的吞吐量、延迟和性能。fpga将始终在标准产品不可用的新用例中占有一席之地。幸运的是,总会有新的应用被发明出来。”

边缘还是数据中心?
讨论中需要单独进行计算数据中心边缘.Synopsys公司的塔迪康达说:“数据中心的人工智能芯片都是用来处理大量数据来进行复杂计算的。”“这就是我们更多地谈论学习的地方,gpu占据主导地位。很少有公司试图为数据中心制造人工智能芯片。谷歌是tpu中最明显的。其他公司也在努力,但从经济学的角度来看,这些公司很难发挥重要作用。为了制造一款针对数据中心的人工智能芯片,需要有足够的量,而人工智能芯片的制造成本相当昂贵。像谷歌这样的公司能够负担得起,因为他们是自己的消费者。”

要在数据中心取得成功,光有一个好的芯片是不够的。Xilinx的Ni说:“你需要强大的硬件,以及具有合适散热器和气流的板。”“这需要在许多服务器和原始设备制造商中获得资格或认证,才能在游戏中使用。如果一个peta-op芯片不适合合适的外形,或者不适合大多数服务器,那是不够好的。这可能是一个非常棘手的问题。”

一个强有力的例子可以证明普遍性。Synopsys高级产品营销经理乔•马莱特(Joe Mallett)表示:“学习芯片的销量不错,但相比之下,推理芯片的销量要高得多。”“采用FPGA是因为与GPU相比,它的功耗降低了。使用GPU进行推理是非常高功耗的,而fpga开始被认为是低功耗、低成本的解决方案。定制asic是fpga的后续。一些公司押注有足够通用的神经网络,他们可以制造半可编程的设备,放入专用集成电路(ASIC)中,从根深蒂固的参与者手中接管市场。”

关于边缘的讨论变得更加混乱。塔迪康达说:“人们认为手机内的人工智能是一种优势。“但边缘的定义不止于此,尤其是因为5G的创新。消费者或边缘AI主要是物联网设备和手机等设备。还有一种叫做企业优势的东西,可能包括机器人,或者你的制造单元,甚至是你的小细胞,大量数据在5G中聚合。然后是下一个层次的优势,例如电信优势。它在数据到达数据中心之前处理数据。”

许多公司已经准备好预测,针对这些目标的设备将成为定制硅。Mythic产品和业务开发高级副总裁Tim Vehling表示:“由于边缘AI设备和应用程序的设计限制具有挑战性,专业的AI处理器预计将在未来几年取代通用架构。”

另一个例子来自达纳·麦卡蒂,推理销售、营销和应用副总裁Flex Logix.“我们相信,在AI Edge平台上,GPU是如今每个人都在使用的,”他说。“除了昂贵的预生产原型外,fpga不被使用。2022年,尖端人工智能加速器将开始出现。”

如果这听起来像是蛮荒的西部,西门子的萨哈对此表示赞同。“这完全是一个狂野的西部。我不认为我们有任何东西可以被称为边缘上的主导球员。事物将如何发展,更加动态,更加不确定。这是一个巨大且不断增长的市场,在需求和应用程序用例以及现有参与者正在做的事情的驱动下,市场出现了混乱。再加上性能、功率和能源效率,你需要很多不同的解决方案。”

但这里有很大的不同。Synopsys公司的迪亚曼提迪斯说:“根本就没有所谓的人工智能芯片。“人工智能加速和处理是边缘操作系统的关键组成部分,但这些系统也包括不同类型的处理。在许多情况下,它们必须包含标量cpu。”

塔迪康达完全同意。“在大多数边缘领域,都没有独立的人工智能芯片。这是一个SoC, SoC的一部分是AI IP。我们看到大约5%到8%的模具区域被分配给AI引擎。我们希望在未来看到这种增长。”

开发SoC需要更广泛的经验。“对于任何声称要做大型边缘或端点人工智能的初创公司来说,他们不仅必须获得正确的神经网络引擎——具有正确的神经网络支持和正确的性能——而且他们还必须获得正确的SoC,”Ni说。“此外,要进入机器人或汽车等市场,你必须获得必要的安全认证。”

在边缘,一个好的芯片可以创造新的市场。萨哈说:“能源效率在边缘比在数据中心更重要。”“想想芯片为用户创造的额外价值,如果它可以通过电池供电,而不是总是需要插电。专门为特定任务设计的芯片可能产量不高,因为它的设计非常特殊,但如果财务指标发挥作用,你将看到这些定制芯片的增长。”

合适的芯片可以改变ROI。Diamantidis以助听器为例。“考虑一下,如果你能够将一个模型安装在可以自主执行自然语言处理等任务的助听器中,会发生什么。这在今天是不可能的。这意味着我不需要将音频内容传输到数据中心进行处理,这意味着我的设备更小,因为我不需要通信电路。我的设备耗电少得多,因为我不需要传输任何东西。应用程序可以以更低的延迟运行,并在用户体验方面实现一些非常重要的突破,这只是因为我能够适应模型并在设备上运行,而不是让它通信。”

软件连接
在过去,由于软件不足而导致硬件重大进步失败的案例比比皆是。CacheQ Systems的技术和业务人员格雷格·多特里(Greg Daughtry)表示:“人工智能开发人员不想参与使用硬件描述语言编写定制硬件。“他们习惯于使用基本上是Python脚本的工具框架。那么,他们如何定制或添加额外的逻辑来将自己与其他人区分开来呢?”

虽然框架可能是标准化的,但仍然涉及到许多软件。“人工智能科学家可以直接使用解决方案堆栈,”倪说。“但实际上,我们在软件工程师或编译工程师上的投入比硬件工程师更多,以确保我们的成功。正因为如此,这意味着人工智能科学家几乎可以从TensorFlow或PyTorch中获取他们在CPU、GPU或其他设备上训练的任何模型,并直接将它们编译成fpga。这是一项巨大的投资。”

倪很快就赞扬了早期进入的Nvidia和Intel。“我肯定会称赞英特尔和英伟达,因为他们十多年前就投资了CUDA。他们是第一批在他们的工具中使用深度神经网络支持的人。他们花了很长时间来建立一个足够多的人组成的社区,这些人基本上可以用他们训练过的网络在gpu上进行推理。这项工作实际上需要很多年。英伟达花了10多年的时间,但好消息是他们为之后的所有人铺平了道路。现在我们知道该怎么做了。”

但这并不是故事的结局。“真正的困难不是应用软件,”Mallett说。“这是驱动程序,是硬件和操作系统之间的接口。”

塔迪康达说得更远一些。“问题是如何将编译器输出映射到这些asic或不同的架构中。这是困难的。这是各样供物的肉。这个芯片其实很简单。人工智能芯片非常简单。复杂性在于将模型映射到硬件的软件。遗留提供者的优势在于它们的库、应用程序和框架支持是健壮的。人们可以接受它,它变得简单明了。”

是什么让它如此困难?“神经网络正在不断发展,现在人们更多地使用基于变压器的网络,”倪说。“这些都是颠覆性的变化。硬件需要一种非常不同的缓冲方法和新的内存层次结构,以便下一层可以在数据准备就绪时开始计算。这是一个极其困难的计算机体系结构问题。在几乎90%的情况下,内存是运行任何神经网络工作负载的瓶颈。具有加固任务结构的设备,如CPU或GPU,不能修改它们与内存的关系。”

不断发展的算法,理解硬件的可行性,并完善对应两者的软件,这是该行业正在努力解决的任务。在他们花了时间和金钱培养了一个成功的候选人之后,如果他们成功了,会有人在自己周围建立护城河吗?

第二部分将探讨围绕硬件和软件流失率的问题,以及早期设计获胜所固有的优势。

相关的
降低人工智能能耗的11种方法
将人工智能推向边缘需要新的架构、工具和方法。
理解新的边缘推断架构
如何驾驭大量令人困惑的选择和术语。
配置AI芯片
跟上算法和潜在交互的变化。
更快、低功耗人工智能系统的隐藏成本
AI/ML设计中的权衡可能会影响从老化到可靠性的一切,但并不总是以可预测的方式。



2的评论

吉尔·罗素 说:

布莱恩,
最大的限制因素之一是,我们似乎陷入了冯·诺依曼的思维模式,在解决“受大脑启发”的问题时,增量硬件架构是非常难以“从精神上爬出来”的,我们还没有完全理解,但正在接近一组可用的选项来集成到商业世界中。

这意味着问题是“内存中”的,而且本质上是高度并行的——必须运行在20瓦左右。

到目前为止,还没有人读过《主算法》,尽管有些人在这个方向上表现出了强大的销售努力——试试华盛顿雷德蒙德/星期五港的Pattern Computer,本周宣布了一项15秒的无试剂Covid-19测试。他们的平台吗?“模式发现引擎”是一个在IBM新宣布的“沃森发现即服务”中击败他们的商标项目。Pattern Computer还将推出更多的产品——目前世界似乎都在他们的掌握之中。

模式计算机最初的名字是“考文垂”,意思是“送到考文垂”。我会让你弄清楚的-答案是关于教条的一切…

迈克尔Kanellos 说:

伟大的故事。我一直在观察人工智能处理器公司以每周一次的速度孵化,我想知道它会在哪里结束。

留下回复


(注:此名称将公开显示)

Baidu