中文 英语

加速器的秘密生活

独特的机器学习算法,规模缩减的好处,以及对更细粒度的需求,正在创造加速器的繁荣。

受欢迎程度

加速器芯片越来越多地提供了设备扩展曾经提供的性能提升,改变了关于数据在电子系统中如何移动以及应该在哪里处理的基本假设。

在外界看来,朝鲜似乎没有什么变化。但在光鲜的外表下,加速器芯片几乎总是隐藏在人们的视线之外,它正成为大多数设计中不可或缺的一部分,在这些设计中,性能被视为至关重要。随着数据量的不断增加——更多的传感器、更高分辨率的图像和视频,以及更多来自连接系统的输入,这些在过去都是独立设备——提高性能是必要的。因此,即使系统在外部运行速度没有明显提高,它们也需要在不减速的情况下处理更多数据。

这种对性能的重新强调使得人们对各种类型的加速器产生了几乎无法满足的需求,甚至在智能手机等移动设备中,一个ASIC曾经是标准。

AMD公司副总裁兼产品首席技术官Joe Macri表示:“性能可以最大程度地降低总拥有成本。”“性能是频率和每周期指令的函数。”

这就是加速器真正发挥作用的地方。这类处理器包括定制设计的asic,可以卸载软件中的特定操作,以及标准GPU芯片,可以并行工作的异构CPU内核(即使在同一芯片内),以及离散和嵌入式fpga。

但加速器也给设计团队带来了挑战。它们需要更多的计划,更深入地了解软件和算法在设备中的工作方式,而且它们非常具体。即使使用可编程逻辑,加速器的重用也很困难。

“用加速器解决问题需要更多的努力,”微软营销副总裁史蒂夫·门索尔说Achronix.“你的努力确实会得到回报。你会得到更好的表现。但这些加速器正变得越来越具体。”


图1:芯片加速器。来源:斯坦福大学

加速器也改变了整个设计理念。多年来,人们一直专注于降低功耗,单个芯片上的更多内核大多保持暗状态,现在重点已经转移到一种更细粒度的方法来提高性能,通常在保持功耗预算持平或呈下降趋势的情况下。因此,与其把所有东西都绑定到一个CPU上,不如使用多种异构类型的处理器或具有更专门功能的核心。

“现在有更多的粒度来平衡核间的负载,所以你可以对单个核进行电源管理,”开发解决方案的营销总监Guilherme Marshall说手臂.这些都需要调度器进行微调。这种趋势我们已经看到一段时间了,而且还在不断发展。第一个实现是big.LITTLE。现在,每个核心的能量控制都有了更好的程度。”

这听起来可能有点进化,但这不是一个微不足道的变化。Marshall指出,这需要对整个软件堆栈进行更改。

在这些变化的同时,人们也在努力使软件更高效、更快。多年来,软件的开发几乎独立于硬件,遵循一组编程接口,并专注于不同操作的优先级和调度。结果导致软件代码臃肿,功能正确,但速度缓慢,每次操作消耗太多能量。该软件也变得非常复杂,想要确保它的安全性几乎是不可能的。

向软件定义硬件的推动是这个问题的产物。但这也反映了一个潜在的问题。随着数据量的增长,需要重新考虑数据流以及数据处理的位置。

“大学里有大量关于加速的工作正在进行,”迈克·吉安法格纳(Mike Gianfagna)说eSilicon.“在某种程度上,这对IP重用提出了另一个挑战,因为它需要不同级别的集成。它可能涉及芯片、接口芯片、高带宽存储器堆栈和不同的基板。加速器本身也需要更加坚固。”

机器学习狂热
加速器以其在机器学习目前,该技术正呈现爆炸式增长,并在多个行业得到广泛应用。这在用于加速机器学习算法的GPU加速器的销售中表现得很明显。英伟达(Nvidia)的股价走势图看起来像一根曲棍球棒。gpu在机器学习的学习阶段非常擅长加速算法,因为它们可以在数千个廉价的内核上并行运行浮点计算。

作为一个参考点,英伟达的市值略高于Qualcomm华为是智能手机革命的关键参与者之一。根据雅虎的最新统计,高通的市值为784亿美元,市盈率为17.7。英伟达的市值为994亿美元,市盈率为56.09倍。一年前,英伟达的股价是每股57美元。目前的交易价格为167美元。


图2:英伟达过去十年的股价。来源:雅虎

不过,英伟达并不拥有整个市场。机器学习的下一个阶段是推理——获取设备的学习行为,并使用它在定义的参数内做出决策。这本质上是基于这些学习的可能操作的高斯分布,它发挥了FPGA和DSP加速器的优势,它们更擅长于定点计算。

这里的共同点是,这两个阶段都需要加速器,而加速器并不是什么新鲜事。它们已经存在了几十年。英特尔1980年推出的8087浮点协处理器就是一个很好的例子,它是8086 CPU的配套产品。机器学习的历史更悠久,可以追溯到20世纪50年代末。

正是这两个世界的结合引起了如此大的轰动。这两家公司似乎都处于许多快速增长的新兴市场的中心,包括汽车电子、智能制造和越来越多的半导体设计。

“机器学习有三个方面——感知、决定和行动,”微软营销副总裁库尔特·舒勒(Kurt Shuler)说ArterisIP.“创新在于‘决定’部分。目前还没有最好的架构,但在算法和人们选择加速的东西上有很多创新。这是约束管理的一种形式。您必须使用硬件加速器,因为您的电力预算有限,并且需要接近实时的性能。有了机器学习,你不可能想出一个能做所有事情的算法。所以你创建了新的算法,但它们在标准的CPU内核、gpu或SIMD上运行得不好。然后你必须创造一个加速器。”

许多架构,一个目的
虽然加速器可以完成同样的事情,但没有一个尺寸适合所有人,大多数加速器至少是半定制的。

“一方面,有真正集成到指令集的加速器,这是最好的加速形式,”at的营销和业务发展副总裁Anush Mohandass说NetSpeed系统.“在过去的几年里,我们也看到加速器在同一个包中作为独立的块出现。所以你可能有一个FPGA和一个SoC打包在一起。也可以是半自定义IP和FPGA。知识产权加速器是一个相对较新的概念。它们挂在互连线上。但为了有效,所有这些都必须是连贯的。所以它可能不太复杂,也可能很简单,但如果你想让它连贯起来,该怎么做呢?”

这不是一个简单的问题。莫罕达斯说,具有讽刺意味的是,一直回避电子产品的汽车行业正在引领这一潮流。

新型加速器也正在进入市场。嵌入式fpga获得如此多关注的原因之一是,它们可以根据它们试图加速的任何东西来调整大小。挑战在于预先了解所需的核心大小,但代价是将可编程性添加到设备中。因此,它可以通过编程来跟上协议更新和不同的软件,但正确调整这些设备的大小需要一些有根据的猜测。

Achronix的系统架构师Kent Orthner表示:“加速器正变得越来越具体。“传统上,这些都不是处理器和内存。我们看到它们正在向CPU和主存靠拢。在网络中,智能网卡(网络接口卡)被包含在算法中,因此它们可以在将数据交给主处理器之前进行深度数据包检查。”

数据中心是eFPGA加速器的另一个增长领域,这在很大程度上是因为芯片制造商之间的脱节,以及这些芯片最终将如何使用。这就是为什么英特尔收购Altera是有意义的。将可编程元素添加到包中或板上,可以让这些设备处理标准CPU无法处理的数据类型和用例。

“基本原则是,你越接近最终应用程序,你就越能清楚地知道下一步该往哪里走。Flex Logix.“但是ASIC供应商真的不知道数据中心发生了什么。芯片公司处于这一切的中心。数据中心现在要求可编程性,因为协议正在发生变化。他们希望能够建立一个数据中心,而不是更换他们的芯片。因此,如果协议发生变化,您不必更换交换机或网络接口芯片。你只需改变协议。这一点至关重要,因为随着数据中心规模的扩大,它们可以拥有自己的协议。”

上下文中的加速器
半导体行业一直专注于解决瓶颈,这就是为什么有钴和钌等新材料被考虑用于互连,以及finfet取代平面晶体管的原因。但与过去铜线取代铝线不同的是,现在有很多东西需要一次性修好,而且价格越来越贵。
此外,仅仅在设计中增加更多的晶体管并不一定能获得更好的性能,因为路由拥塞和内存争用会减少增加晶体管密度的好处。同样,可伸缩的内存芯片也不一定能产生更快的内存。

“在20世纪90年代中期,我们看到DRAM扩展速度放缓,”该公司首席科学家克雷格•汉佩尔(Craig Hampel)表示Rambus.“从历史上看,我们看到35%的复合年增长率,但到2010年已经下降到25%。这就造成了每比特成本的差距。这就产生了对新的内存解决方案的需求。但每一个新的解决方案都有三个基本要素。首先,它必须满足内存的功能需求,这基本上是块大小和成本。其次,它需要一个无处不在的界面。有一些解决方案,延迟和块大小太高。第三,你需要软件意识来利用内存。”

所需要的是对异构体系结构(包括内存和处理元素)的系统级重新思考。在数据中心中,这涉及到几种不同的方法。“一个巨大的变化是软件定义存储,”微软投资组合和技术战略副总裁尼克·伊利亚迪斯说迈威尔公司.“ssd正在取代hdd,因为它们提供了更好的速度和更低的延迟。所以我们看到的是超融合的超大规模。”

超收敛是指计算和存储垂直堆叠。与此同时,超大规模依赖于向网络中添加更多单元,这也增加了更多带宽。在超收敛的情况下,你会扩大规模。而超大规模则是向外扩展。

加速器是另一个解决方案。Flex Logix的Tate指出:“它们并不是免费的。“它们占据空间,而且必须在设计中融入。但你可以为不同的客户加快不同的路径,这具有巨大的潜力。”

其他应用程序
推动芯片行业专注于加速器芯片的是一些根本性的市场和技术转变。关于新市场将如何展开,需要支持哪些协议,以及在机器学习的情况下,需要支持哪些算法,都存在更多的不确定性。但加速器有望成为解决所有这些转变的关键部分。

ArterisIP公司的舒勒说:“原始技术将内置到你的太阳镜中。“它首先会出现在汽车上,因为消费者愿意为此付费。但它会无处不在——在你的手机里,甚至在你的洗碗机里。”

在各种各样的市场,包括基站,微控制器内部,国防和航空航天,以及加密/解密的安全,已经有了很大的兴趣。图形处理器甚至被用于加速半导体制造中掩模的模式化。

“通过大规模并行图形处理器,你可以操纵任何图像,”丰田公司首席执行官藤村昭说d2.“对于cpu,你花7000美元就能得到22到24核。有了gpu,你可以用这个价格得到数千个内核,你可以做很多不同的事情。你需要选择少量你可以做的事情,但你可以并行地做这些事情。我们仍然需要cpu来处理大多数事情。但gpu擅长的事情很少,它们真的很擅长这些事情。如果尝试进行模拟,则需要SIMD体系结构。但是,GPU是符合自然规律的,有了GPU,你就可以模拟电子束撞击掩模形状时的行为。与此同时,gpu在处理OASIS文件方面很糟糕。”


图3:GPU与CPU。来源:英伟达

结论
不断上升的设计成本和不断减少的规模回报,再加上大量新兴市场,正迫使芯片制造商和系统公司以不同的方式看待问题。公司开始根据数据流和数据类型来分析问题,而不是围绕现有的硬件。在这个世界上,通用芯片仍然有一席之地,但它不会提供足够的性能改进或效率,从而在一代又一代之间产生显著的差异。

为特定用例定制的加速器是一种更有效的解决方案,它们为半导体设计增加了一个既具有挑战性又有趣的维度。如果所有东西都不是基于晶体管数量的线性增长,那么设备的运行速度能快多少呢?这个问题需要很多年才能得到确切的答案。

有关的故事
新架构,加速芯片的方法
在10nm和7nm工艺中,性能指标正在发生变化。速度仍然很重要,但一种方法并不能适用于所有情况。
机器学习竞赛
随着技术开始成型,芯片行业重新定位;目前还没有明确的赢家。
人工智能芯片长什么样?
随着人工智能市场的升温,关于如何构建这些系统的困惑也在升温。



留下回复


(注:此名称将公开显示)

Baidu