Nvidia的顶级技术专家讨论gpu的未来

能力,性能,结构,使人工智能无处不在。

受欢迎程度

半导体工程坐下来讨论GPU的作用在人工智能、自治和辅助驾驶,先进的包装和异构体系结构与比尔磨磨蹭蹭的,快Nvidia的首席科学家,约拿的阿尔Nvidia GPU的工程的高级副总裁,在IEEE的热芯片2019年会议。以下是摘录的谈话。

SE:有一些新的技术趋势,例如移动chiplets和打破芯片分成更小的片段。英伟达如何看待呢?

轻率地对待:特别是在我们的研究机构,我们不断地开发和评估技术来构建系统不同。(在HotChips团队)展示了一种技术组装system-in-package通过装配chiplets在有机基板上使用一种称为地面参考信号的技术(GRS),我们最初大约5或6年前开发。(它)有两个非常好的属性。一个是每一下很低能量微微焦耳每一点。比较典型的并行转换器,这可能是在6或7焦耳每一点。GRS单端,所以它是非常密集。每秒25 gb,但这就像一个50-gigabit并行转换器,因为50克串并收发器有两个跟踪下芯片的边缘。这是昂贵的resources-tracks从芯片的边缘。鳍是便宜的。但让route-outs会限制你什么。所以它有很高的边缘密度。然后我们已经证明了我们的沃尔塔模块和帕斯卡模块HBM我们可以组装多个芯片的硅插入器,这是一个技术密集的和你可以得到更多的连接。我们得到每毫米每秒tb GRS。你可以避开4字节每秒每毫米硅插入器。所以它没有密集的单位长度的带宽。低得多的能量。你可以得到能量下降到10的微微焦耳每一点连接在一个硅插入器。这给了我们一堆技术在货架上,在某个时间点上,如果它成为经济上正确的组装从多个chiplets gpu,我们主要有(技术。现在它是一个工具的工具箱GPU设计师。

SE:交叉点在哪里?我们现在7点走到5 nm。你们在哪里打它chiplets ?

阿尔我们还没有达到。

SE:人们试图把更快的吞吐量问题并行转换器。另一种选择是,让我们摆脱完全并行转换器和一个完全不同的方向。

轻率地对待:GRS SerDes-like,但更轻重量比并行转换器。所以需要少死区,力量。它需要一个球而不是两个。

SE:你的竞争对手说GPU能效低于一些替代品和即将发布的芯片。你的观点是什么?

轻率地对待我不相信是这样的。如果你看看这些深度学习加速器,核心,他们都有一个矩阵乘以单位。我们扩展矩阵乘以单位做整数和浮点操作。我们也有一个矩阵乘以单位。你可以把我们的张量作为我们的核心专业单位进行深度学习。当你这样做的内循环深度学习,我不知道谁是明显比我们更有效率。因为大多数的能量进入数学和张量的核心,有少量的开销抓取MMA(矩阵乘法和积累)指令发出,并抓取的操作数寄存器文件。但它完全是平摊。图灵,做一个IMMA,你做1024算术运算,平摊到了所有的开销。核心业务,建立一个专门的芯片不购买也许10%或20%以上,这样做的成本获取。顺便说一下,他们也要从别的地方获取数据。

阿尔:在一天结束的时候,他们都在谈论并行处理器,对吧?他们有一个处理器。

轻率地对待:真正的区别是两件事。可能最重要的区别在于软件。已经这样做了一段时间,我们有非常完善的软件。它允许我们运行许多不同的网络,得到很好的分数的能力的硬件。另一个区别是在记忆系统,围绕这些矩阵乘以单位。还有权衡。例如,[TensorRT 4] GDDR6内存,这比LPDDR燃烧更多的能量。

阿尔:今天大多数推断公司谈谈使用LPDDR内存,这当然是一个更低的功率比但也慢很多。

轻率地对待:对。这是一个有意识的决定。如果我们想完全优化teraOPS每瓦特,我们会把LPDDR4。但我们看某些人们想要运行网络,特别是伯特网络,这是非常大的,需要大量的内存带宽。如果你想做与低延迟伯特,你需要内存带宽。所以最好是燃烧更多的权力和有这个能力。

SE:人们开始说,“这可能不是最终的架构,但是它的很多东西可能不够好。”这是一个80/20法则,或者90/10在那样的层次,对吧?

轻率地对待:是的。还有,如果你使它过度专业化的网络今天,当它实际上你错过了马克。所以你必须让它足够通用,你真的可以追踪该领域的快速发展。

阿尔:想到有人在数据中心。他们要想买,如果只是在做一件事好吗?一旦他们把芯片的数据中心,这将是至少5或10年,是否他们使用它。

SE:通常情况下,有一个批发更换所有这些芯片。

阿尔:是的,但它是你是否使用与否。如果你没有任何自主运行,然后坐在那里什么都没做。的利用率和广度能力很重要,一般来说,我们试图确保我们的设计可以覆盖,不只是一个over-specialized,独一无二的事情。

SE:转向异构体系结构在许多人工智能应用程序。如何gpu玩其他处理器类型吗?

轻率地对待:我们是异构架构的先驱。从第一天起我们说的方式构建系统是真的latency-critical的事情。你有一个CPU。latency-critical较低的东西,但是,你需要绝对最好的吞吐量,GPU。那些东西你需要真正去快,您有专门的加速器,在GPU。这开始与图形,图形的一些工作负载在CPU上运行,其中一些运行在GPU上的流多处理器,和一些它运行在硬块,如光栅、纹理过滤器,和排字工人在GPU上。我们开始做图形,但事实证明,GPU是一个理想的平台,来填补加速器。真的有这美好的记忆系统和一个低开销的调度指令。我们可以插入其他专业加速器像张量核加速AI。我们可以插入RT核心加速BVH(边界体积层次),遍历和雷/三角形相交的部分光线追踪。 And in the future, I imagine we will plug in other cores as we identify application areas that need it. So it’s very heterogeneous. You have the CPU for those critical serial pieces of code, where all that matters is latency. Once you have enough parallelism, you don’t need that. You run it on the GPU. And if the test becomes demanding enough, and there are enough people who want it, you build an accelerator and it becomes a core.

SE:可以扩大,通过添加更多的gpu ?

轻率地对待:是的。

阿尔:一个GPU不像x86。它的工作原理就像在一个固定的ISA。所以我们总是可以改变什么,处理器的定义。

SE:你如何看待边缘计算打到所有这一切吗?

轻率地对待:它是将是巨大的,因为很少有事情不能受益于智力。

SE:现在看起来像一个非常模糊的概念,我们的云计算和一切。

轻率地对待:对,但事实证明,对于很多边缘简单的事情,你实际上更好使用I / O(云)。智能恒温器不需要智能恒温器。他们只是测量温度和送东西到云,它归结为打开空调。但是有些时候你需要东西的边缘,和定义,对每个应用程序都是不同的。在Nvidia我们决定看一些极端情况。我们有自主车辆操作。我们有一个很大的努力在机器人。然后我们有一个很大的推动医学。但这只是冰山一角的边缘。我们的方法是让其他人边缘。 We took our deep learning accelerator design, the NVDLA, and we open-sourced it.

SE:你的表现和权力的多少现在出来更好的硬件/软件合作设计与过去?

轻率地对待:这是非常现实的人工智能空间。如果我们把张量核,我们不知道如何编写代码,他们将是无用的。所以,当你真的想挤出很多,你必须非常小心地一起工作。

SE:英伟达在汽车在哪里?

轻率地对待:我们的大脑想要所有的自治实体,包括自动驾驶汽车、机器人,人们将构建的各种事情。很多这是通过深入学习,使我们能够建立机器现在认为超过了人类。我们试图与不同的汽车制造商合作,为他们提供尽可能多的堆栈的他们想要的东西。很多人会使用我们的硬件,这取决于他们需要多少马力。我们所做的工作基本上做ASIL D,所以你可以使用它为人类生活依赖的东西。然后我们有一个软件堆栈,基本上我们已经创建了一个巨大的数据集用我们自己的车跑在街道上,我们与模拟数据的增强。我们有一个巨大的军队贴标签机标签所有这些数据,所以我们可以训练网络。我们有网络,做其他车辆检测,评估他们的距离和速度。我们有网络融合的雷达数据回到获得更好的速度估计。我们有网络,找到自由空间。 We have two independent detections on where it’s safe to drive, one that says where are the things that you don’t want to hit, and the other which says where is the space that doesn’t have things you don’t want to hit. We have another network that basically finds the lanes, and we have a network that’s sort of an outgrowth of our original end-to-end approach to this that we’ve since sort of de-emphasized, but it actually feeds into our path plotter by suggesting the appropriate path for the car to follow going forward. So that’s the perception stack.

SE:期待不同的场景呢?

轻率地对待:我们有在此基础上预测模块,试图预测其他车辆在未来要做的,和规划模块,考虑到这些信息,说在哪里开车。这样做,我们开发了很多基础设施。所以很多我们参与的汽车制造商将买帕帕豆荚。因为他们要训练自己的网络,他们需要这种能力。我们也有一个称为“星座”的产品,它允许你做半实物仿真。所以你可以驱动飞马或驱动泽维尔和把它放在一个架子上,这是一组生成视频的gpu,看起来就像来自摄像机的视频。相同的电子格式,所以在电脑上插入相同的连接器。电脑并没有意识到这不是一个真正的汽车。有点像“矩阵”,所以将会有电脑架,他们在一个模拟世界,和模拟道路可以重演你已经采取的数据。所以你有这回归测试,你可以说,“好吧,这是我们昨天降低101号公路,你只要确保它做同样的事情是应该做的。 We also can feed in simulated data and have scenarios so we can see how well the car computer does. This hardware-in-the-loop simulation is really important for verifying both in a regression way—if you change anything, you haven’t broken anything—but also to just verify that it works in the first place under all conditions.

SE:你你收集所有的数据从不同的创业公司和汽车公司使用你的芯片吗?

轻率地对待:不,我希望我们可以。这将是巨大的优势,所有数据除了所有的数据我们已经收集了我们自己。

SE:有人问数据吗?

轻率地对待:我们已经与人讨论数据共享。

阿尔:在方向。这显然是一个很大的资产现在在这个行业。

SE:世界似乎分裂之间的汽车现在汽车公司说,这是需要太长,所以他们只会有一个相机现在而不是多个摄像头,和那些急于自主驾驶,可能在某种geo /环击剑。

轻率地对待看看这个:人们错误的作为一个阈值,得到一些点,突然所有的汽车自动驾驶。我所看到的情况是,当我们开发这一技术,尽管很多正在推动四级开车,它最终达到当前汽车级别2或3。现在,这让每个人都安全得多。所以如果你看一些东西的推出在过去几年模型,人们正在运行神经网络在他们的观念,做自动紧急制动,这种方法比过去更好。

SE:这是一个有趣的观察,因为在过去的大部分改进出来的非常昂贵的汽车。现在你开始看到的是他们的技术的发展,它似乎是更普遍。

阿尔:还有一个分层。

轻率地对待:早在1990年代,当我们从half-micron 2.5微米,每瓦特改进了3倍。如果你落后,技术转移,你没有竞争力。今天,两个相邻节点之间,说10和7海里,或7和5海里,你可能会得到20%的改善。这不是以前的3倍。如果你看看我们一代又一代的gpu,我们已经翻倍性能AI一代又一代。从建筑,而不是过程。过程帮助一点。

SE:权力是一个问题,还是仍然几乎所有性能?

轻率地对待:每瓦特性能是重要的,我们将提供尽可能多的性能我们可以在一个信封里。

有关的故事
Chiplets,更快的互联,更效率
为什么Intel、AMD的手臂,和IBM正聚焦于架构,微体系结构和功能变化。
高级包装选项增加
但将多个芯片放入一个包仍然是困难和昂贵的。
GPU知识中心
GPU上的故事,特别报告、白皮书、技术论文、博客



留下一个回复


(注意:这个名字会显示公开)

Baidu