中文 英语

晶体管和集成电路架构的未来

计算能力越强越好。但是去那里最好的方法是什么?

受欢迎程度

《半导体工程》杂志与英伟达制造与工业全球业务发展主管陈杰(Jerry Chen)坐下来讨论了芯片缩放、晶体管、新架构和封装;计算产品副总裁David Fried说林的研究;Mark Shirey,微软营销和应用副总裁心理契约;的首席执行官藤村昭d2.以下是那次谈话的节选。

SE:几十年来,芯片制造商一直在实施IC扩展来推进设计,但在每个节点上,扩展的成本正在上升,收益正在减少。你对摩尔定律有什么看法?我们需要2nm工艺或者更远的工艺吗?我们是否需要更多的计算能力?

:当然,是的。在我看来,这是毫无疑问的。例如,D2S为半导体制造业提供gpu加速计算。对于我们所做的事情,无论是晶圆还是掩模制造,我们今天已经可以看到我们如何使用比现在多10倍的计算能力。值得庆幸的是,因为我们专注于GPU加速,摩尔定律继续为我们扩展。我们不依赖时钟速度缩放。我们依赖于位宽缩放。英伟达以同样的价格在同一块芯片上封装越来越多的内核。我们充分利用了这一点,并随之扩大规模。我们刚刚发布了我们的第七代计算设计平台,该平台的计算能力为每秒1.8千万亿次。 It’s an amazing amount of stuff that we can do in one computer rack. But we could easily use 18 petaflops. With 1.8 petaflops, we can do a lot, but there’s a lot more that we would like to be able to do. We can simulate more accurately to take more sophisticated effects into account without approximation, for example. But we can’t use them because it would require 10 days of computing. With 18 petaflops, we can get it down to one day of computing. And so there is a fragment of the computing community, like ourselves, where there is an insatiable demand for more computing power. And certainly,深度学习加速了这一进程。

:我们可以使用10倍以上的计算能力。这是全面的。整个世界的每个用户交互点的每个节点、每个计算方面以及每个内存点都需要10倍以上的计算能力。目前,这种无法满足的需求在全世界普遍存在。远程工作和在家办公只会加剧这种需求。

SE:让我们来看看GPU扩展的演变。在2002年的180nm节点上,英伟达的gpu有6100万个晶体管。英伟达最新的7纳米图形处理器拥有540亿个晶体管。他们还合并了高带宽内存(HBM)的高级包。有限制吗?

:仅仅从流程改进中获得的好处显然开始逐渐减少。与此同时,市场对更强大计算能力的需求一如既往地难以满足。关于我们的架构战略,从一开始作为一个全堆栈加速计算公司,我们并没有完全依赖于流程改进来不断地给我们更快的时钟和更快的标量性能。我们总是能够通过三种方式进行优化。第一是通过并行。第二,在架构层面上进行创新。第三,从上到下优化整个软件堆栈。因此,我们能够年复一年地持续保持显著的性能改进,远远超过我们仅仅依赖于增加时钟频率和进程改进的效果。

:利用单指令多数据(SIMD)架构编写的软件算法可以完美地扩展gpu的位宽扩展。因此,随着我们在未来几年从每个芯片5000个核心增长到10,000个核心,而每个芯片的成本几乎相同,SIMD软件将能够在性能上线性扩展。在这样的程序中,所有的核心在任何给定的时间都执行相同的指令,数据是处理器之间唯一的区别。这与在CPU的多个核中拥有多个线程非常不同,在CPU的多个核中,不同的指令对每个核中的不同数据进行操作。但是只有特定类型的软件,并且只有专门为SIMD编写的软件才能很好地工作,并从gpu的位宽扩展中受益。但值得庆幸的是,关于自然的任何事情本质上都是SIMD。物理、化学和数学对任何单位的作用都是一样的。是不同的数据导致了不同而复杂的整体行为。因此,天气预报、神经网络计算、光刻模拟、掩模模拟或图像处理都可以很自然地转换到基于simd的架构中。

SE:另一方面,半导体行业在晶体管规模化方面遇到了各种挑战。我们讨论的是功率、性能、面积、成本和时间。我们遇到了功率墙,RC延迟和面积缩放。你在这里遇到了哪些挑战?

首先,我们需要考虑如何在GPU on-die的不同部分之间移动数据。不仅如此,我们还需要聪明地处理各个级别的数据移动,从包级结构一直到数据中心级结构。关于数据移动如何成为各级发电的最大驱动力,有大量研究。许多人只在移动设备的环境中考虑功率有限的解决方案。但现实是,当今的一切都是有限的——即使是性能最高的超级计算机。因此,我们的架构师和VLSI工程师专注于优化我们的架构,以在任何给定的功率预算下获得尽可能多的性能。

功率、性能、面积和产量(PPAY,如果我们想指定成本而不是产量,则为PPAC)一直是产品开发的总包线。我们在每一处都遇到了障碍。我们一直受PPAC或PPAY的约束。我们一直在挑战所有这些的极限。有时,你在其中一个参数上迈出了很大的一步,有些比其他的大。但我们一直在对抗的总是这一系列弹性障碍。有一件事很重要,那就是总的系统级性能。在一天结束的时候,这才是最重要的。在历史上的某些时刻,仅靠芯片的时钟频率就能实现系统级性能的巨大进步。在其他时候,通过电源管理技术实现了系统级的大改进。 So, we’ve always been up against the same things — power, performance, area, and yield or cost. You need improvements in at least one of those areas to enable total system performance, and it’s not always the same area. I would suggest that baseline transistor scaling, either through step-wise performance, power, or uniformity of transistor scaling and enhancements, has always been a significant piece of overall system performance improvements. We’re definitely not in a place where transistor scaling doesn’t matter anymore. It still matters. It’s being leveraged and taken advantage of in different ways. If we get density improvements from scaling, even without performance enhancements, most are going to take it by providing more cores in the reticle field. Some may not care if we gain additional performance from those transistors. But if you can get 10% more cores on, let’s say, a GPU, that’s a huge system-level advantage enabled by transistor scaling. At that point, you don’t have to worry about moving those bits on and off a chip. You move bits around the chip and it’s much faster. It’s a huge system-level advantage just to get additional monolithic integration by scaling. We’re limited by the same parametric boundaries as before. We’ve just been continually pushing them in different directions. At the end of the day, system-level performance is all that matters. This is no big change. This isn’t a major inflection point where we are changing our entire PPAC or PPAY methodology. We are just pushing it on some parameters, and we can keep enhancing system-level performance as long as the market keeps insisting and demanding that we provide additional compute power and memory.

SE:从2011年开始,业界从平面晶体管转向下一代finfet。芯片制造商继续在先进节点上扩展今天的finFET晶体管。一些公司将finFET扩展到3nm,而另一些公司将转向3nm/2nm的全能纳米片fet。你如何看待这一趋势?


图1:Planar vs. finFET vs. gate-全能

:平面- - - - - - - - -finFET过渡主要是一种门长度扩展启发的过渡。为了更好地控制静电,我们使用了双门控装置。这为我们提供了多纳米的栅极缩放,也开辟了晶体管缩放的新方向。我们可以开始增加高度,为每个足迹提供更多的活动宽度。这是一个很好的过渡。进入全能门可以让你完全静电控制设备。它会给你额外的几纳米的栅极缩放。这些是我们需要的纳米,它打开了另一个缩放轴。在未来,如果我们能得到互补的场效应晶体管就像nfet和pfet相互堆叠一样,它为我们提供了额外的逻辑扩展优势。我们从静电优势开始获得栅极长度缩放,通过这样做,我们打开了一个全新的缩放参数集。也就是说,从finFET到gate-all-around无论是纳米线还是纳米片,都将变得粗糙一些。架构要求我们在结构下面执行流程。这是一个很大的变化,而且非常具有挑战性。对于finfet,我们必须学习如何在侧壁上更好地进行半导体处理,但我们仍然可以看到我们正在做的一切。在栅极全能纳米片/纳米线中,我们必须在我们看不到的结构下进行处理,在那里测量更具挑战性。这将是一个更加困难的过渡。

Shirey说:对于门-全能架构来说,从表面之下看问题是一个挑战。在第一次测量finFET结构时,我们经历了类似的挑战,但规模较小。GAA延续了finFET通过实现垂直架构来缩放晶体管的趋势。随着纳米片及其发展,如forksheet场效应晶体管以及互补的fet,行业将继续看到越来越多的3D结构的路线图,所有这些结构都必须进行测量和检查。从检验和计量的角度来看,我们开始实施不同的照明源来检测和测量关键过程和模式异常。对于许多这样的器件结构,我们正在追求不同的光学波长来观察表面以下,并从变化或缺陷中提取信号。与此同时,我们也在研究照明源的创新——比如x射线和电子束技术——以深入地表以下,看看那里发生了什么。

SE:从你的角度来看,你是如何看待路线图的?我们可以看到全能纳米片。除此之外还有什么?我们有这样做的流程和工具吗?

Shirey说:显然,近期行业的主要焦点是实现纳米片/纳米线等全方位技术的集成和工作。就这些设备的特征而言,现在还相对较早,我们正在寻找最有效的方法来测量它们。我们的分析表明,叉车fet或互补fet似乎正在出现,许多论文显示了可行性,但它们不会在短期内出现在设备集成中。一旦纳米片的进化改进失去动力,该行业将需要转向其他东西,如互补fet,这可能会使晶体管密度翻倍。如果我们为工具和过程分配足够的工程重点和资源,那么这些技术就可能被采用。

SE:我们是否需要其他的架构,比如高级封装、单片集成等等?

Shirey说关于这些问题,我有两个想法。首先,许多人都在谈论通过芯片架构进行创新。这似乎是一个巨大的领域来实现性能改进的规模,通过所获得的摩尔定律.我们已经从瑞士军刀式的CPU变成了专门的GPU。这些gpu被设计来执行一个非常特定的任务,并且从电源和性能的角度来看,可以更有效地执行该任务。感觉就像有一场新兴芯片架构的淘金热,每一个都有斜坡和产量挑战。此外,芯片通常很大,这本身就构成了一个产量挑战。因此,随着从瑞士军刀般的cpu到高度定制的gpu的转变,我们看到了设备架构的爆炸式增长,因此,为了帮助实现整体系统性能要求,过程控制强度增加了。我的第二个想法是我们还没有谈到的一件事,那就是通过先进的晶圆级封装来结合所有这些芯片,或者更未来的东西,比如混合晶圆键合和混合晶圆键合。堆叠芯片——比如多模DRAM堆栈或直接将DRAM堆叠到逻辑芯片上——是一个巨大的领域,在系统级别上也可以实现性能提升。

在系统层面上,对所有创新的答案都是肯定的。我们需要晶体管缩放。我们需要改进芯片架构。我们将需要3D集成包装。我们将需要所有这些来交付最终的系统性能要求。市场存在着一系列的分化。我们来自一个以前几乎没有系统级碎片的地方,所有东西都像一个单一的CPU。您可以把我们以前的系统级改进方法看作是一把瑞士军刀。所以我们做了很多晶体管的决定,互连的决定,包装的决定,集成的决定都是基于我们在一个完全整合的系统空间中的存在。在这个范围的另一端是一个完全碎片化的空间,其中每个系统都有自己的需求。 If we go down that completely fragmented path, we might make various different transistor scaling decisions, packaging decisions, and interconnect decisions. You’re going to want to optimize each system differently. So the way some product designers want to perform 3D integration in terms of where they place the memory, I/O, and compute in a 3D integrated package is going to be very different from somebody who’s developing a different system with different priorities and requirements. There’s this huge spectrum of choices being made. Every chip architecture will drive different decisions in technology, packaging, and interconnect. It will be really interesting to see where we end up in that spectrum of fragmentation to meet system-level performance requirements.

:英伟达对不同技术的使用就是大家都在谈论的一个很好的例子。对于他们的每一代产品,他们都会调查所有可用的技术,并选择最佳组合。他们在能够获得足够高的产量和经济上有实际的限制。英伟达的gpu是对良率敏感的大容量晶圆,因此选择能够按时良好工作的前沿技术始终是一项艰巨的任务。在使用英伟达的gpu超过10年的时间里,我们总是对每一代gpu所包含的打包和集成技术的数量感到惊讶。

如我们是最先看到…好处的人之一先进的包装和集成技术,追溯到2016年的帕斯卡一代。但坦率地说,整个行业都对这些技术的好处有很大的兴趣。你可以从晶圆代工厂和内存制造商在这类技术上的大力投资中看到这一点。例如,台积电积极投资其3DFabric产品组合,其中包括先进的2.5D和3D包装和面料。这些技术开辟了额外的维度,以推动完整的器件性能超越芯片。

有关的故事
3nm/2nm新晶体管结构
栅极全能fet将取代finfet,但过渡将是昂贵和困难的。
高级包会出什么问题
更多的异构设计和包装选项增加了整个供应链的挑战,从设计到制造再到现场。
3nm/2nm新晶体管结构
栅极全能fet将取代finfet,但过渡将是昂贵和困难的
为先进包装建立动力
在更多维度上增加密度,加快上市时间。



1评论

匿名 说:

消费者和专业gpu应该包含ssd——即AMD的“固态图形”概念。

留下回复


(注:此名称将公开显示)

Baidu