中文 英语

重新想象GPU

一个基本的处理元素是如何被RISC-V、分区和推理转换的。

受欢迎程度

约翰·雷菲尔德,首席技术官想象力的技术他接受了《半导体工程》杂志的采访,讨论了RISC-V、人工智能和计算架构。以下是那次谈话的节选。

SE:你对RISC-V有什么计划?

雷菲尔德:我们正在积极完成将RISC-V核心集成到未来一代的工作gpu.那项工作已经进行了好几个月了。展望未来,我们将在GPU的IP块中利用RISC-V,而且很有可能应用到其他领域“诱导多能性”比如连通性。传统上我们是混合使用的。想象力在历史上有一个专有的核心,称为META。此外,通过与MIPS的短暂结合,一些现有产品也配备了MIPS内核。作为我们产品战略的一部分,我们正在将所有这些迁移到RISC-V。我们认为RISC-V是一个非常大的空间,正在获得很大的吸引力。在我们的用户基础和其他ip中,我们都看到了这一点。当然,我们的ip也会包含这些内容。许多实体正在利用RISC-V并授权RISC-V处理器内核。我们正在与这一领域的公司合作,比如SiFive。 We’ve got our IP set up to work alongside SiFive cores in many cases, and we’ve got joint customer engagements going on.

SE:大部分业务都在中国,还是也分散在世界其他地方?

雷菲尔德:分布得很好。我们在中国的业务不到50%,但对我们来说,中国正成为一个越来越大的市场。

SE:很多人都在谈论中国建立自己的独立供应链,RISC-V是关键组成部分之一。事实上,RISC-V联盟现在已经搬到了瑞士,不受任何贸易战的限制。这对RISC-V的采用有何影响?

雷菲尔德:这并不完全清楚,但RISC-V是一个开放架构的事实对我们所有人都有好处。它确实提供了更多的自由。我们是RISC-V基金会的参与者,随着时间的推移,我们将更加积极地参与其中。建立一个大的软件生态系统依赖于事物的稳定性,所以对架构的控制是很重要的,即使它是灵活的。如果你看看嵌入式处理器的前景,多年来它已经变得非常两极分化围绕Arm。在这一领域,人们希望有一些竞争。因此,我们看到人们开始使用RISC-V。这是在中国,也是在中国以外。我们看到它在西方有很大的吸引力,特别是在我所描述的深度嵌入式插座,而不是必然地开放面向客户的插座——尽管这也在随着时间的推移而改变。

SE:是否有开始生产的压力艰难的IP一些先进的包装?可扩展的功耗/性能优势正在减少,因此许多芯片制造商正在寻求架构改进来弥补这一点。Chiplets是最新的进展。

雷菲尔德:我们目前的大部分业务都是在消费者和移动领域。我们正在看到高性能计算领域的活动,在这个领域,这些类型的方法对我们来说非常有趣。它当然在我们的雷达上。在那些非常高性能的市场中,你几乎把空间放在一边,专注于性能,担心如何从空间中获得足够的耗散功率,当然,这些方法变得非常重要。我们将与合作伙伴一起解决这些问题。不过,我们不会直接涉及到包装。这将是一种合作模式。

SE: gpu无处不在。它们一直在使用,但当我们开始研究人工智能时,其中一个大问题是gpu的功耗。Imagination是如何解决这个问题的呢?

雷菲尔德:让我们把它分成两部分——推理和训练。培训是像英伟达这样的公司凭借高性能gpu和卡系统占据主导地位的领域,他们的重点是计算性能。今天,我们并不是这个领域的主要参与者。但在推论方面,我们是玩家。我们的船神经网络加速器(NNAs) - 3NX是目前的产品线-这些都是围绕功率效率高度优化的IP。这是一个解决电力问题的建筑设计。如果你有效地缩小空间,专注于算法和网络的样子,以及它们如何映射到硬件上,你就可以做出一些关于架构的非常明智的决定,并专注于性能。但是同样的架构并不适合于培训。这是一个非常不同的问题。这是一组不同的优化。我们倾向于做的是观察市场,并倾向于边缘。在边缘有很多推断,它也是一些消费者套接字。这是我们关注的重点,而不是高性能计算,尽管这在这里有点混乱。在大力推动高性能计算的汽车领域,肯定会有一个跨界,我们看到gpu在该领域的计算加速用例越来越多。 And that is typically people who are trying to migrate from a big rack of stuff containing very high-performance GPUs off the shelf tosoc为特定的人工智能应用进行了高度集成和功率优化。

SE:为了真正提高推理芯片的效率,你必须比过去更紧密地集成硬件和软件。这对Imagination在这里所做的事情有什么影响?

雷菲尔德:你说对了。这是一种平衡,一方面你可以在架构上做一些积极的事情——比如提高电源效率——但同时又不能太过离场,否则对软件来说就没有任何意义了,或者成为一个完全难以解决的软件问题,这是我们在架构团队中经常处理的平衡。由此推断,最大的成本之一是数据移动。像大多数的硅一样,如果你开始在带宽很大的外部存储器中进进出出,你的功耗就会飙升。我们在软件方面投入了大量资金,使用了一些非常聪明的编译技术,能够将神经网络重新映射到我们的硬件上,以一种减少内存流量的最佳方式,因此,与系统的功耗100%相关。这是一个很好的例子来解决你所引用的一些事情。

SE:当算法发生变化时会发生什么,因为这些东西几乎是不断变化的?你是怎么处理的?

雷菲尔德:它仍然是一个非常可编程的引擎。它有很大的灵活性。根据最终应用程序的不同,有时主机CPU需要大量使用,有时则不需要。这在很大程度上取决于网络的类型和网络中的用例,即是否与系统的其余部分发生大量交互,或者它是否相对独立。我们在网络方面也做了足够的工作,我们可以引导客户采用更有效的解决方案。所以经常有人带着特定类型的网络来找我们,我们可以说,‘你考虑过这个吗?“我们可以向他们展示,他们得到的结果是相同的,但它在底层硬件上的运行效率更高,功率和性能也更好。”

SE:你是否预先将无用的数据分割出来?有两种方法,对吧?您可以最大限度地减少数据的移动,但也可以预先删除一些数据。

雷菲尔德:是的,所有这些技巧结合在一起。将它们全部整合到最终产品中才能带来整体性能和功率效益。

SE:另一个部分涉及到神经网络加速,你如何计算更多的单位能量,对吗?

雷菲尔德:是的,这是一个高水平的宽度与效用的权衡。你走得很广,同时做很多事情,在某个时候你会达到利用率递减的地步。所以这实际上是关于我们如何映射事物。我们在单个核心中有粒度,然后我们也支持多个核心实例,我们有软件可以帮助你在单个核心中总结你的数据重用。这样可以最大限度地减少能耗,而且还可以跨多个核进行分区——基本上可以通过多个实例来提高并行性。

SE:在某种程度上,并行化是很棒的。你可以把它调大,就好像你有可并行的应用程序、数据和计算一样,这对mac来说很棒。问题是,你并不总是移动这类数据。你也能分割区域打开这个,根据需要关闭这个吗?

雷菲尔德:有,我们有粗粮和细粮。这是功率控制,基本上。所以,如果你没有利用数组的一部分,你就没有付出代价,浪费时间。硬件的最佳使用是100%的利用率,因为您总是在支付一些东西,即使只是最后的10%。我们一直在推动软件尽可能高的利用率。然后,在架构的某些部分是空闲的情况下,它们处于低功耗状态并尽可能地最小化。

SE:这确实比想象力的作用高了一步,对吧?所以基本上你把这个卖给你的客户,你的客户必须弄清楚它可能的用例是什么。

雷菲尔德:是的,但我们实际上非常参与对话,前后讨论,并对拓扑结构提出建议。所以,是的,最终是我们的客户在做决定,但鉴于我们的经验,我们可以帮助他们做出正确的决定。

SE: Imagination的gpu中有Hyperlane。那是什么?

雷菲尔德:Hyperlane技术允许将GPU划分成片。如果你有一个很大的gpu实例,在任何特定的时间你想用它的一部分来绘图,一部分来计算,你可以把这两个世界非常清晰地分开。你可以把它想象成CPU世界中的一个管理程序。您可以分离状态,并在两者之间建立一个干净的分区。它们不会相互干扰。从软件的角度来看,它看起来像两个GPU核心,这是一个很好的特性,因为它非常适用。另一个例子涉及安全关键事项。在汽车领域,你可能会让显示器的一部分包含安全关键信息,而另一部分则是更一般的渲染,你可能想在系统设计中非常安全地划分它。GPU的一部分与系统中运行的一些非常安全的软件一起工作。

SE:分区现在已经成为很多计算中的一个大问题,这是硬件和软件的问题。但是划分的界限在哪里呢?

雷菲尔德:现在有很多用例,所以这变得越来越相关,这就是为什么我们沿着这条路走下去。在许多系统中,它是多用途的,无论是在显示器上的多个区域,还是在部分用于计算和部分用于图形之间进行分区。但随着我们的进步,它正变得越来越普遍。在某种程度上,这是系统的自然进化。同样的事情也发生在cpu上,有安全操作和不那么安全操作的系统。在安全关键型系统中,管理程序基本上可以发挥作用。您甚至可以找到cpu,其中一个操作系统运行对安全至关重要的硬实时操作,而另一个操作系统(如Linux)运行系统的其余部分,但它们不是运行在同一个核心或核心复合体上。这些类型的想法可以扩展到整个系统架构。我们在GPU领域的真正优势之一是,我们很早就接受了它,它是一个非常干净的实现。

SE:神经网络加速器是如何工作的?

雷菲尔德:我们设计了这两者,以便它们在一个系统中很好地协同工作,并与系统中的其他外部IP一起工作。我们也有软件可以同时针对GPU和神经网络进行不同类型的加速。但这是个难题。我们有很好的例子,但在这一点上,它肯定只是刚刚出现。

SE:内存类型或方法有什么变化吗?

雷菲尔德:我们会尝试批量处理事务等等。最终,内存控制器部分不是我们携带和追求的IP,但我们非常注意有效的访问类型。

SE:你确实需要把数据从内存中取出来又从内存中取出来,所以你希望处理过程尽可能地靠近内存,对吗?你还需要拓宽数据的通道。了。

雷菲尔德:当然,如果你看看我们的GPU架构,它肯定是走在越来越宽的道路上。在一些系统设计中,我们仍然将其缩小,因为这是客户想要的。但扩大业务范围可以提高很多效率,我们可以在任何地方利用这一点。

SE:关于推理芯片,特别是人工智能,其中一件事是,它们会随着时间的推移而适应和优化。你如何让它保持在特定的参数内,甚至设置这些参数?

雷菲尔德:精确是绝对重要的。每个人在推理中都很重视的一件事是量化网络的效率,我们也这么做。但我们提供了一种非常灵活的方法,这样人们就可以务实地决定他们想要支付的数据宽度。我们的引擎允许您从4位宽的单词扩展到32位。例如,即使您要量化到16位系数,我们也有一些特性可以为您提供扩展的动态范围——即使是16位系数。我们有工具可以让人们进行一些迭代,并与我们原始的没有量化的网络进行比较,基本上在这个意义上达到等效。一般来说,人们倾向于使用非常宽的浮点数或双精度来开发,但实际上几乎所有实现的结果都小于这个值,无论是特殊的浮点词还是量化网络。

SE:安全方面有什么新进展吗?

雷菲尔德:Hyperlane也有利于安全。无论您是为了安全或安全而进行分区,这些特性实际上都要走很长的路。我们公司有一个关于安全的倡议,以扩大功能集,并易于集成到更安全的系统中。无论最终应用程序是什么,安全性正在成为基本需求。你得去某个酒吧。

SE: Imagination的下一个重点领域是什么?接下来你要去哪里?

雷菲尔德:你会看到我们继续发展gpu,积极地沿着路线图前进。我们在人工智能领域已经建立了强大的地位,而且,我们在这方面的投资也在增加。我们在汽车设计方面相当活跃,所以这是我们投入大量资金的领域。我们看到了一些良好的吸引力,因为计算和汽车的水平目前处于相当强劲的增长势头。

[编者注:John Rayfield在采访结束后辞去了Imagination Technologies的工作。]



留下回复


(注:此名称将公开显示)

Baidu