中文 英语

人工智能建筑注意事项

怎样才能成功的定制芯片处理神经网络针对数据中心或边缘?很多钱是寻找这个答案。

受欢迎程度

定制芯片,贴上人工智能(AI)或机器学习(ML),每周出现,每个自称是10倍的速度比现有设备或使用1/10的力量。这是否足以取代现有的体系结构,如gpu和fpga,或者他们是否会生存与架构还不清楚。

问题或机会,机会空间是巨大的。当设计一个人工智能/毫升设备,许多问题需要解决:

  • 是什么应用程序,或范围的应用程序,它的目的是什么?
  • 是为了培训或推理,推理要在哪里做了什么?
  • 什么是市场的大小,是大到足以支持一个专用产品或需要更灵活的吗?
  • 粘性是如何设计赢,是多久之前新硬件优势或算法之前,协议得以接受从而抛弃现有的硬件?
  • 你如何创建一个重要的竞争推进,可以维持吗?

硬件创建一个完全定制ASIC之间一直都是一个连续体和一个通用的可编程设备。唯一的变化是,新类型的架构被扔进的混合处理和内存之间的关系。这意味着现在多个连续体存在。或另一种方式看,他们提供了一个附加轴的自由已经成为相关。

“建筑创新,我们已经看到在过去三、四年是我们还没有看到在之前的几十年,“Stelios Diamantidis说,人工智能产品和研究主管Synopsys对此。“可编程性会给你更多的灵活性,这是用于诸如自主车辆的环境。然后ultra-optimality也是非常有趣的情况下,你知道你的应用程序不会改变。”

培训,是在数据中心中完成的,每个人都在寻求废黜GPU。“GPU仍然是一个时间机器,”Diamantidis指出。“它仍然是对几何处理架构,孤立地看顶点和并行流。然而,当然GPU的体系结构有了很大的提升。主要的GPU的体系结构在数据中心今天看起来更像一个人工智能芯片,从头设计的东西,而GPU从2016年。”

也是同样的道理fpga现在包含许多固定功能块。“你变硬一个AI推理块吗?”尼克问倪,AI和软件产品营销主管赛灵思公司。”或者你硬块5 g算法优化特定利基应用程序?你必须看看ROI,确定这是一个小的细分市场,或者可以妄大相邻市场吗?后面有一个整体战略。”

在FPGA强势推动推理的数据中心,没有实际的解决方案已经出现。“大多数芯片正在建造专用asic针对应用程序结束,“说Susheel Tadikonda,负责工程的副总裁Synopsys对此的验证组。“考虑视觉。Facebook自己的基于“增大化现实”技术的耳机/ VR,里面是自己的视觉处理器。这个人工智能芯片是针对这个应用程序。如果我把一辆汽车,它可能不做这项工作。这一愿景处理器做不同的事。它有一个不同的工作负载。很多asic迎合最终的应用程序。他们都打在一个利基市场。”

多个解决方案可能共存。“我不认为这是一个赢家通吃的市场,“安普萨哈说,战略和业务发展高级经理西门子EDA。“这是一个不断增长的市场和不同要求的每一部分市场。gpu的空间,有空间处理器、fpga的空间,将会有数据中心空间特定的芯片——特定的人工智能。”

混合可能随时间改变。“使用fpga在没有现成的解决方案和卷不需要实现一个完整的ASIC,”鲍勃Beachler说,把人工智能的产品副总裁。“在早期的人工智能爆炸(2016 - 18)只有gpu和fpga可加速人工智能工作负载。fpga是比gpu从性能的角度来看,但易于实现的成本。现在,随着专用AI加速器,AI的需要使用fpga是减少,AI加速器提供更好的吞吐量,延迟和性能相比,gpu和fpga。fpga将永远有一个家在小说使用标准产品不可用的情况。幸运的是他们总是有新的应用程序被发明。”

边缘或数据中心吗?
讨论需要单独计算完成的数据中心边缘。“人工智能芯片数据中心都是关于咀嚼通过大量数据做复杂计算,“说Synopsys对此Tadikonda。“这就是我们讨论更多的学习,和gpu占主导地位。很少有公司试图制造人工智能芯片的数据中心。谷歌与tpu最明显。从其他公司有努力,但从经济学的角度将是非常困难的对于这些公司扮演着重要的角色。建立一个人工智能芯片,目标数据中心需要有体积,和人工智能芯片是非常昂贵的。像谷歌这样的公司可以负担得起,因为他们是自己的消费者。”

在数据中心中成功不仅仅需要一个好的芯片。“你需要强大的硬件,和董事会的散热器和空气流动,“Xilinx的倪说。“需要资格或注册在许多服务器和oem厂商为了在游戏中。是不够一个peta-op芯片,不适合正确的形式因素,或不适合大部分的服务器。这可以是一个非常困难的问题。”

充分说明了普遍性。“学习芯片看到不错的体积,但推测芯片体积相比高出不少,”乔说,最高级别Synopsys对此高级产品营销经理。“采用FPGA由于其功率降低而GPU。使用GPU来推论非常高功率,和fpga已经开始被认为是低功耗,低成本的解决方案。定制asic追随那些fpga。一些公司认为有足够通用神经网络,在那里他们可以使设备semi-programmable,放在一个ASIC,接管市场从根深蒂固的球员。”

讨论边缘变得更加混乱。“人们认为人工智能手机内的边缘,“Tadikonda说。“但边缘的定义移除此之外,特别是因为5 g的创新。消费者或边缘等人工智能主要是设备物联网设备和手机。还有别的企业优势,其中可能包括机器人技术,或你的制造单位,甚至在你的小细胞,大量的数据被聚合在5克。还有下一个水平的优势,比如电信优势。处理数据之前它的数据中心。”

许多公司已经准备好预测,针对这些设备将成为定制的硅。“由于具有挑战性的设计约束在边缘AI设备和应用程序中,专门的人工智能处理器预计将取代通用架构在未来几年,”Tim Vehling说,产品和业务发展高级副总裁在神话。

另一个例子来自达纳·麦卡蒂,推理副总裁销售、营销和应用程序Flex Logix。“我们相信,在人工智能平台边缘,GPU是今天每个人都在使用,”他说。“不使用fpga除了昂贵的前期制作原型。2022年,边缘AI加速器将开始出现。”

如果这听起来像是狂野的西部,西门子萨哈表示同意。“这是一个完整的西部。我不认为我们有什么可以称为边缘主导者。更动态和更多不确定的事情将如何演变。这是一个很大的和不断增长的市场,有一个中断驱动的市场需求和应用程序的用例,以及现有的球员正在做什么。添加性能、电力和能源效率,需要许多不同的解决方案。”

但最大的不同就在于此。“没有所谓的人工智能芯片的边缘,“说Synopsys对此Diamantidis。“人工智能加速和处理是一个关键的组件系统运作的优势,但这些系统包括不同类型的处理,。在许多情况下,他们必须包括标量处理器。”

Tadikonda完全一致。“对于大多数边缘没有独立的人工智能芯片。这是一个SoC, SoC的一部分是一个人工智能IP。我们看到大约5%到8%的死亡区域分配给人工智能引擎。我们期望看到未来的增长。”

开发一个SoC需要一个更广泛的经验。”对于任何创业公司声称他们要做一个大的边缘或端点AI,他们不仅要获得正确的神经网络引擎——正确的神经网络支持和正确的性能,但他们还得周围的SoC,没错,”倪说到。“此外,机器人等进入市场或汽车,你必须获得必要的安全认证。”

边,一个好的芯片可以创造新市场。更重要的是“能源效率比数据中心的边缘,”萨哈说。“考虑额外的价值,一个芯片可以创建用户如果能电池和需要总是插入。芯片非常专门为特定的任务可能不是高容量,因为它是一个非常特殊的设计,但如果财务指标,您将看到增长的定制芯片。”

正确的芯片可以改变ROI。Diamantidis指向一个助听器为例。“考虑如果你能够适合模型的助听器可以自动执行任务,如自然语言处理。今天这是不可能的。这意味着我不需要传输的音频内容数据中心处理,这意味着我的设备更小,因为我不需要通信电路。我的设备消耗大大减少权力,因为我不需要传递任何东西。和应用程序可以在显著降低延迟,使一些非常重大突破在用户体验方面,仅仅因为我能够适应模型和运行在设备和它交流,”他说。

软件连接
过去到处都是重要的硬件的进步,失败了,因为软件的不足。“AI开发者不需要参与编写自定义硬件使用硬件描述语言,“说格雷格•道奇乐团成员的技术和业务人员CacheQ系统。“他们习惯使用工具的框架基本上是Python脚本。所以他们怎么能自定义或添加额外的逻辑区别自己和别人有什么?”

而框架可能是标准化的,很多软件仍在参与。“解决方案堆栈可以直接使用的人工智能科学家,”倪说到。“但我们实际上更多地投资于软件工程师,或者编译器工程师,比硬件工程师,以确保我们是成功的。正因为如此,这意味着人工智能科学家可以采取任何模型训练在一个CPU, GPU,等等,从TensorFlow或PyTorch,直接编译成fpga。这是一个巨大的投资。”

倪很快赞扬的早期进入者,Nvidia和英特尔。“我肯定会信用英特尔和Nvidia因为他们在CUDA投资,例如,十多年前。然后他们被第一个跳上深层神经网络工具的支持。他们花了很长时间来建立一个社区的足够的人可以把他们的培训网络和gpu进行推理。这项工作确实需要许多年的时间。Nvidia花了超过10年,但好消息是,他们对每个人都铺平了道路。现在我们知道该做什么。”

但这并不是故事的结局。“真正的困难不是应用程序软件,“Mallett说。“这是司机,这部分之间的接口的硬件做的功能,和操作系统之类的上面。”

Tadikonda有点远。“问题是你怎么编译器输出映射到这些asic或不同的体系结构。这是困难的。这是每一个提供的肉。芯片其实很简单。人工智能芯片非常简单。软件的复杂性是地图模型分成硬件。遗留供应商有优势在他们的图书馆,和他们的应用程序和框架支持,是健壮的。人们可以采用它,它变得简单。”

是什么让它如此困难?“神经网络也在不断变化,比起现在人们使用更多的基于变压器网络,”倪说到。“这些都是颠覆性的变化。硬件需要一个非常不同的方法来缓冲和新的内存层次结构,以便可以开始下一层数据时计算做好准备。这是一个极其困难的计算机体系结构的问题。在90%的情况下,内存是任何神经网络负载运行的瓶颈。设备与硬化任务结构,如CPU或GPU,不能修改他们的关系记忆。”

进化算法的结合,了解什么是可能的在硬件和完善软件映射两个任务,该行业正努力应对。后花了时间和金钱建立一个成功的候选人,会有人设法建立一个护城河围绕自己如果他们成功了?

第二部分将探讨问题的硬件和软件流失率和固有的优势可能是早期设计的胜利。

相关的
11减少人工智能能量消耗的方法
推动人工智能边缘需要新的架构,工具和方法。
使新的Edge-Inference架构
如何浏览大量令人困惑的选择和术语。
配置人工智能芯片
跟上变化算法和潜在的相互作用。
在更快的隐性成本,低功耗的人工智能系统
权衡在AI /毫升的设计可以影响从老化可靠性,但并不总是以可预测的方式。



2的评论

吉尔·罗素 说:

布莱恩,
最限制因素之一是,我们似乎仍停留在冯·诺依曼心态的增量硬件架构是极难”精神爬出“当谈到解决“大脑启发”的问题,我们还不能完全理解正接近一组可用的选项,融入世界。

言下之意是,问题是“内存”,它在本质上是高度并行的,运行在~ 20瓦。

到目前为止没有人临到“主算法”虽然有些是表现出强烈的畅销的朝这个方向努力,尝试电脑模式,雷蒙德/星期五港湾,华盛顿宣布15秒Covid-19测试本周没有试剂。他们的平台吗?”模式探索引擎”商标项比IBM的新宣布的“沃森发现作为服务”。电脑有更多来自模式——目前世界似乎是他们的牡蛎。

模式的电脑最初的名字是“考文垂”如“Coventy派”。我会让你弄清楚——答案是告诉所有教条…,

迈克尔Kanellos 说:

伟大的故事。我一直看人工智能处理器企业孵化在什么似乎是一个一周一次的,我想可能结束。

留下一个回复


(注意:这个名字会显示公开)

Baidu