建筑推论芯片的挑战

是人工智能领域的继续进步,不同的推论方法正在开发中。并不是所有的工作。

2020年2月27日—:安Mutschler

把训练算法在该领域工作是创建一个疯狂的活动在整个芯片世界,促使设计,从特制的专用处理器和加速器更广义扩展现有的和silicon-proven技术。

目前可以确定的是,没有一个单一的芯片架构被视为推论的首选解决方案。机器学习仍处于初级阶段,是整个边缘概念的这些推论芯片最终将部署。此外,如何利用这项技术在多个市场和用例结束,更不用说选择最好的芯片架构,已经发生了巨大的变化在过去的12至18个月的训练算法继续发展。这很困难,如果不是不可能,任何单一的建筑在这一领域占主导地位很长时间。

“机器学习可以在一系列的处理器上运行,取决于你最关注什么,”丹尼斯Laudick说,机器学习集团营销副总裁手臂。“例如,所有机器学习今天将现有的CPU上运行。你只想做光毫升,如关键词定位,或者响应时间不是关键,比如分析离线照片,那么CPU能够这样做。它还可以执行其他任务,这降低了硅需要额外投资。工作方式变得更重,性能是至关重要的或功率效率是一个问题,然后有一系列的选择。”

有各种各样的配置选项可用来提高能力,性能,面积和带宽。”例如,许多音频集中毫升网络scalar-heavy和相对matrix-light,虽然许多目标检测算法matrix-heavy但相当轻标量需求,“Laudick说。“这不是一个正确的答案。”

虽然有协议,大多数推测是在边缘,由于身体无法移动大量数据的快速有效地不够,这仍然是一个非常广泛而朦胧的类别。“边缘扩展从低级的物联网数据中心的优势,”说,此举使数据产品管理主管AI推理的边缘抑扬顿挫的Tensilica组。“它必须是一个独立的吗?我们需要另一个协同处理器吗?那个地方有一个协同处理器吗?这一切取决于我们正在调查的应用市场,无论是小型物联网或消费者物联网或工业物联网或数据中心应用程序。”

图1:手臂的ML处理器。来源:手臂

在消费者物联网空间,例如,电源效率是至关重要的,因为这些设备需要的一些工作从一个或多个微型电池。

”之类的AR / VR,有人工智能优势的需求,但还有其他传感器,控制,同时,“数据的表示。“那里,你必须使用视觉传感器和音频传感器和鸡眼看系统设计。从推论的角度来看,然后变得更多少带宽得到从系统级这些配置。该地区的预算是多少?由于电力成本是非常重要的,非常重要。在这种情况下,它不只是影响边缘本身,但是一些核心组件,需要看芯片的设计。”

在AR /虚拟现实眼镜,数据指出,因为他们将坐在面前,核心能力是非常关键的。“工程团队,想做一定的人工智能程序,趋势正在向。但与此同时,他们需要选择IP和设计芯片,这样传统的计算机视觉可以做,。AI并不是一个标准的人工智能推理,因为你没有区域和力量放在多个芯片。设计团队必须看看复合视角。”

其他推论应用程序涉及的工业物联网或者在数据中心。,更多关于数据分析和处理大量数据的问题。“有大量的数据在不同的格式,”她解释道。“这可能是视觉数据,雷达数据,或任何在金融部门。所有你要做的就是怎样处理这些数据,所以它是纯人工智能推理的优势。这就是他们正在寻找更多的从成本的角度来看,因为如果他们看到,他们不需要来回移动数据到云,它节省了成本。我宁愿做很多工作在边缘,然后将其发送到云,因为你可以有独立的AI推论的边缘。”

速度很重要
这里的关键因素是吞吐量。“这些通常是插入式设备。权力永远是关键,只有耗散你能负担得起。但在系统的层次结构,还有其他事情之前。记忆当然是人工智能推理边上的另一个重要组成部分。多少内存和带宽可以维持多少?”

为企业构建这些芯片,市场机会都在蓬勃发展。的首席执行官杰夫•泰特Flex Logix指出,实现人工智能的生物医学成像等市场在超声系统中,基因系统,随着科学成像的应用程序需要很高的分辨率和帧率非常高。监控摄像头用于零售商店也在增长因此零售商可以使用摄像头连线已经扩展到他们的服务器获取信息,比如有多少顾客进入商店,顾客等待时间等。

虽然许多,如果不是大多数,推测芯片主要CPU-based, Flex Logix使用一些嵌入式FPGA芯片技术的推论。“公司像微软使用fpga今天在他们的数据中心。他们已经部署了fpga一段时间。他们做了,因为他们发现是常见的在他们的数据中心的工作负载,他们可以编写代码,在FPGA上运行,基本上它将运行得更快以较低的成本比如果它运行在一个处理器和权力,”泰特说。

这开辟了一片新的选项。在Xilinx董事会“如果它跑得快比英特尔至强,而且价格更好,客户希望吞吐量/美元和FPGA可以做得更好,”泰特说。“微软数据中心,他们运行在FPGA上推断,因为FPGA multiplier-accumulators需要很多和工作站没有他们。微软多年来一直显示FPGA对推理有好处。”

Flex Logix通往一个推理的芯片开始与客户要求一个优化的FPGA进行推论。“曾经有一段时间当fpga逻辑,”他说。“没有multiplier-accumulators他们。那是在80年代,当Xilinx第一次出来。在稍后的时间点,所有fpga multiplier-accumulators,介绍了主要的信号处理。他们优化的信号处理应用程序的大小和它们的功能。这些multiplier-accumulators为什么微软使用fpga进行推理,因为fpga有相当数量的multiplier-accumulators,”泰特解释道。

然后开发团队开始使用gpu进行推论,因为他们也有很多的乘数和蓄电池。但是他们没有优化推理,虽然Nvidia已经慢慢优化。Flex Logix的客户要求公司以两种方式改变其FPGA——改变的所有mac 22-bit 8位,扔掉所有的额外的比特和multiplier-accumulator较小。第二个请求,因为MAC是更小、更能适应同一地区,是MAC电脑分配更多区域。

“我们会发现这明年的架构实际上提供更好的吞吐量/美元,或者吞吐量每瓦,这些将是赢家,”泰特说。“客户不关心哪一个获胜。对他们来说这只是一块硅。他们在神经模型,将软件的魔法使硅工作,他们不在乎里面只要答案出来,在高吞吐量,价格和权力是对的。”

图2:Flex Logix的可重构方法。来源:Flex Logix

不同的方法
这还早得很确定谁将在这场竞争中取胜。首席执行官克里斯再生草BabbleLabs,相信会有推论子系统在硅广泛的平台,而不是很多成功的独立的纯推测芯片。

”深度学习推理是一个强大的新计算工具,但是很少有解决方案完全由推理执行结束,”再生草说。“还有传统软件和大量的具体到用例接口(包括硬件和软件)组成一个硅的解决方案。此外,神经网络推断法固有的并行、高效,适度的硅-说5到10毫米²可以支持巨大的吞吐量。将您添加一个单独的芯片板如果你能花更少的钱获得更高效的车载子系统和权力吗?”

在大多数情况下,只有非常计算密集型视觉和实时企业数据分析为推理证明大独立的芯片,再生草说。“当然,大独立的芯片进行神经网络训练将是一个不同的故事。也可能是一个新的推理片接近记忆。一些系统需要高内存带宽的推论,但不是为其他系统功能,所以专业推理芯片坐在靠近新的高带宽记忆也可能找到一个利基。然而,许多高带宽系统不仅仅需要带宽推理操作,所以它将会更加有效结合推理和non-inference子系统共享共同的高带宽的记忆。”

不过,当看着为人工智能芯片或芯片,开发什么过去六或八年深度学习的概念加速器,GPU的样本,观察到罗杰·莱文森在BrainChip首席运营官。“这就是Nvidia出色地意识到他们的处理器浮点数学很适合做矩阵乘法,这是一个做卷积神经网络所需的计算。这是一个形象。卷积是一个输入处理的事情。这就是gpu。它使一个巨大的进步在我们在人工智能的功能,我们非常感激,我们有这个硬件,因为没有它,我们不会得到任何地方。这是一项技术突破,释放艾未未实际的第一代人工智能,它都做了大量的工作让我们。但权力是太高了。”

此外,真正的学习能力不是通过硬件,他说。“传统建筑使用CPU或主机的数据中心将是一个大主机,或者它可能是一个小的微控制器,但是无论如何CPU是真正的大脑系统。这就是做网络算法管理和运行算法本身。这样就减少compute-heavy加速器工作负载——深度学习加速器或MAC加速器或AI加速器,不管它可能是。这个芯片的供应通过收缩数组或其他结构以非常有效的multiply-accumulates并加速的过程做计算支持算法在CPU上运行。数据进出的驱动器,CPU的说,“我需要运行一些计算。这是你的数据,做一些计算,把它放回到内存中,然后我去过程,将会给你下一批。整个想法是尽可能快。人在不同的体系结构如何优化这个。”

BrainChip的方法是建立一个省电神经形态做这个工作,专用处理器。“这就像冯·诺依曼电脑成立于一个特定的方式来管理数据、操作数据和计算效率。这些类型的工作负载很好。但对于人工智能工作负载来说,你想要一个不同的处理器。它需要目的为了建造过程神经网络类型的信息,”莱文森补充道。

图3:BrainChip Akida架构。来源:BrainChip

结论
专门的处理器和通用处理器之间的权衡将继续混淆这个行业在可预见的未来。这可能会提供一个开放eFPGAs或其他可编程序逻辑或软件,但它需要时间在这个市场有清晰。

是否最好的解决方案是特制的,还是这是一个现成的组件将不同应用程序,最终通过这些解决方案如何执行时间和负载。无论如何,推测市场打开了门,比过去,不同的体系结构和方法,没有迹象表明会很快改变。

有关的故事
人工智能知识中心
头条新闻,专题报告、白皮书、视频、博客AI
为什么在人工智能芯片数据很难保护吗
AI系统旨在通过在高速移动数据,不限制访问。创建一个安全风险。
监控热在人工智能芯片
如何减少利润和提高性能在很大的设备。
AI / ML / DL YouTube频道
技术讨论人工智能,毫升,DL

安Mutschler

(所有的帖子)
安Mutschler在半导体工程执行编辑。

建筑推论芯片的挑战

安Mutschler

留下一个回复取消回复

知识中心的博客

嵌入式FPGA (eFPGA)

冯诺依曼体系结构

深度学习(DL)

机器学习(毫升)

人工智能(AI)

现场可编程门阵列(FPGA)

技术论文

热门文章

芯片制造商的数据泄漏成为更大的问题

重新考虑在美国工程教育

挑战成长为倒装芯片创建小疙瘩

如何计量工具堆栈在3 d NAND闪存设备

Chiplet计划就立马高速运转起来

知识中心
实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Nanoimprint终于找到立足点

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

最近的评论

关于

导航

与我们联系

建筑推论芯片的挑战

安Mutschler

留下一个回复取消回复

知识中心的博客

嵌入式FPGA (eFPGA)

冯诺依曼体系结构

深度学习(DL)

机器学习(毫升)

人工智能(AI)

现场可编程门阵列(FPGA)

技术论文

热门文章

芯片制造商的数据泄漏成为更大的问题

重新考虑在美国工程教育

挑战成长为倒装芯片创建小疙瘩

如何计量工具堆栈在3 d NAND闪存设备

Chiplet计划就立马高速运转起来

知识中心实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Nanoimprint终于找到立足点

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索