7/5/3nm工艺的功率和性能优化

专家:当AI芯片在十字线尺寸上达到最大值时会发生什么?

2020年8月13日- By:埃德·斯珀林

半导体工程坐下来讨论功率优化与奥利弗金，CTOMoortec；João Geada，首席技术专家有限元分析软件；迪诺·托夫隆，工程高级副总裁Synopsys对此；Bryan Bowyer，工程总监Mentor是西门子旗下的企业；Kiran Burli，高级市场总监手臂的物理设计组;卡姆·基特雷尔，高级产品管理集团总监节奏阿里巴巴旗下的Digital And Signoff集团;Saman Sadr，公司IP核产品营销副总裁Rambus；以及Kandou首席执行官Amin Shokrollahi。以下是讨论的节选(第一部分)。

SE:在高级节点上，以及在人工智能处于边缘的情况下，在功率和性能方面的最大挑战和权衡是什么?

王:当我们转向16/14纳米时，速度有了很大的提高，泄漏也大大降低了，每个人都能从消耗更多的能量中获益良多。当我们从7纳米降低到5纳米时，泄漏又开始缓慢上升，几乎达到了28纳米的水平。人们现在不得不平衡这些东西。也就是说，与我之前看到的相比，骰子的大小是巨大的。人工智能需要非常大的模具。他们肯定有不同的平衡。这并不一定是关于他们是否想要燃烧电力。现在的问题是他们能在这么大的骰子里注入多少能量。你怎么把电力输送进来，然后你怎么给整个装置降温?

Toffolon:随着一些大型芯片的分解，特别是在AI领域，就能够扩展功率而言，挑战实际上是在接口上，并试图优化延迟、带宽和覆盖范围。在这个领域，有不同的包装技术可以实现不同类型的解决方案。这就是我们看到的很多能量优化和能量探索活动正在进行的地方。它试图优化这些芯片到芯片或芯片到芯片的链接，并权衡这些互连的包装成本和带宽延迟。

Kittrell最大的问题是总功耗和某些芯片产生的热量，尤其是大型网络芯片。令人惊讶的是，许多人都不知道是什么消耗了这么多能量。他们需要提前获得工作负载信息，以便进行动态功率优化。我们长期以来一直专注于泄漏功率，一旦我们切换到finFET节点，动态功率就接管了，这成为了一个大问题。另一个担忧是多核芯片的出现。在DFT中总是有缓解这种情况的方法，所以当你用IR drop测试它时，你不会杀死芯片。这将成为同时打开多个核的一个问题。你可以使系统过载。你不能把一个空调大小的电容器放在那里来减小di/dt。所以肯定有更聪明的解决办法。 On top of all of that, this is an interesting time because of machine learning and AI, which are causing a renaissance in computer architectures. People are coming up with novel functions for domain-specific architectures, but they want to quickly be able to investigate these architectures up front, see what it’s going to look like in silicon, and make rapid tradeoffs at the beginning. But power is the center of focus for most of the customers we’re talking to at 7nm and 5nm.

鲍耶在边缘，人们正在构建这些新的人工智能处理器，它正在经历与cpu相同的事情，人们需要硬件加速器。他们必须建立自定义硬件来节省能源，节省电力，就像你使用任何CPU或GPU或任何他们使用的处理器一样。但真正的问题是，‘数据是如何移动的?“你有这些巨大的筹码。你需要以一种有效的方式在芯片上移动所有这些数据——一种不消耗你所有能量或电力的方式。有成百上千的建筑可供选择。对于人工智能，有太多的研究正在进行，以至于很难跟上。你甚至不可能阅读今天所有的研究论文来知道什么是最好的架构。所以大多数团队一开始都不知道他们是否能完成比赛。有了高级合成，这就是我被引入的地方，团队已经意识到他们将不得不构建和测试一些东西，然后再次构建以使其正确。

Burli:如果你从架构的角度来看，在NPU上有什么根本的不同之处?这是不同的。这不是一回事。考虑数据流的运动以及如何处理这些数据是非常重要的。如何进行优化呢?你需要确保你不是在复制，因为会有很多设计，而人们正试图把更多的设计塞进更小的区域。当所有这些电路接通时，你需要知道功率发生了什么以及如何将所有的热量从那里释放出来。这是一个巨大的挑战。所以对我们来说，归根结底就是如何处理这个架构?然后你怎么回到代工厂说，‘好吧，我们正在构建这些逻辑库和自定义存储器。 How do we make sure that co-optimizes well, not just with the architecture, but even with the process that the foundry has?’ That may be 7nm or 5nm. Eventually it all boils down to how can you implement this all really, really well so it all fits together and gets you to the right number.

萨德尔我们确实有大量的数据，我们必须担心传输。如果你看一下目前在计算端消耗的能量预算，与传输数据相比，你会发现我们在一个系统中花费了大约70%到90%的能量来传输信息。所以这实际上是每个人都在应对的挑战，它转化为所有的延迟和带宽，并达到权衡。对于体系结构解决方案来说，这意味着决定应该以并行格式还是串行格式传输数据。我们必须决定混合解决方案是否更好，以及我们是想要电传输还是光传输更多数据。最后，这些是混合模式的电路。当你从7纳米到5纳米时，你会面临一个挑战，即混合信号和混合模式功率不能像我们希望的那样缩放。

Geada的解释:我们看到了更多的网线限制芯片。我们已经触及了制造业的基本极限。你不能做一个比标线更大的芯片。这就是为什么突然之间，人们对晶圆级集成、3d - ic之类的东西产生了浓厚的兴趣。我们没有空间了。我们有很多功能，但我们没有更多的空间来放东西。所以一旦你达到了十字线的极限，突然之间你必须开始做一大堆额外的技术来尝试获得功能。这就是为什么我们开始看到更多针对特定应用的设计。您总是要为通用架构付出代价。因此，现在我们开始看到应用程序或特定领域设计的真正大复兴。 There’s a whole bunch of families of AI chips, because they’re all focusing on a slightly different version of the problem. Whether you’re doing inferencing at the edge or you’re doing cloud-side, big-data, high-performance stuff, they’re all looking at the problem in a slightly different way, which ends up in a different architecture. That puts a whole bunch of pressure on design. When everybody was designing a generic CPU, there was a lot of information sharing. That was easy across the industry. With everybody doing their own specific version of the architecture, they have to figure out where the challenges are and where is silicon going to bite you. A lot of people focus on the design side. We tend to focus a lot more on whether the design is going to work for you in the end with the right power budget at the performance you expect. And because of the reticle limits, people are starting to explore additional dimensions. Does the SerDes have to be on-chip, or can it be above on a chiplet? How do we get the best price/performance behavior predictably with reasonable yields. It’s difficult to make good analog design at 5nm, but we know how to do that at different nodes. Maybe move some of the components into different nodes and stack them on top. But that just opens up a whole bunch of different problems on how you validate a complex heterogeneous system under all the operating conditions and performance constraints.

Shokrollahi:对我们来说，从7纳米到5纳米是件麻烦事，但我们必须这么做，因为我们的客户希望我们这么做。我们没有看到太多的优势。电路的规模也不会那么大，而且要花很多钱。这就是为什么很多客户来找我们，试图将他们在高级节点中必须做的硅的数量最小化。他们希望将数据保存在旧的流程节点中，并在MCM内部的数据之间进行I/O。与我交谈过的大多数客户都表示，如果他们不需要进入较低的流程节点，他们就不会这么做。他们会坚持自己已有的东西。摩尔定律认为，用较小的功能构建大系统可能更经济，这些功能是分开打包并相互连接的。结合功能设计和构造的大型功能的可用性应该允许大型系统设计的制造商快速和经济地建造各种各样的设备。在那篇论文中，他不仅预测了摩尔定律。 He forecast chiplets using separate die and functions.

SE:所以我们会看到3nm芯片作为一个完整的芯片，还是我们会看到3nm芯片连接到其他芯片?这对动力和性能有什么影响呢?

Shokrollahi:要看到芯片在整个行业的全面出现，3nm的时间表可能还为时过早。也许是下一个，不管下一个是什么。我们确实看到了，但我不认为这是芯片推出的同一时间框架。

萨德尔:对于大规模推出的预审合格的小芯片来说，这似乎是正确的。但就芯片的推出而言，分解已经在7nm和5nm开始了。芯片和接口产品允许SoC做最好的事情，将数据传输交给更智能的芯片，就像你在5G基础设施中看到的那样，以一种类似于添加ADC或DAC的方式集成。这些技术并不能迅速地转移到下一个节点，而且已经有芯片在为此而出现了。也许它们还没有出现在你以后会看到的数量中，但它已经开始了。我们确实看到了这种趋势。

Toffolon:我同意。已经开始了。我们清楚地看到，主动设计中，模具是分开的，它们使用了模对模的连接来实现相互连接。一些商业设备也已经在这样做了。我们也看到，没有放之四海而皆准的解决方案。有些芯片正在被分解。实际上有一些骰子被聚集起来了。有些情况下，设计是按比例缩放的，复制多个模具来按比例缩放。每一种通常都采用不同的包装技术，具有不同的覆盖范围和不同的损耗。它们通常需要不同的解决方案，有非常非常不同的功率配置。 It’s really dependent on the end application and the packaging technologies, and ultimately the die-to-die interconnect solution that you end up going with.

Kittrell在Cadence，我们已经有2.5D和3D-IC解决方案很长时间了。我们在这方面进行了一些活动。但随着7nm和5nm工艺的出现，我们看到对它的需求大大增加。如果你想要7nm或5nm，其中很多将用于机器学习或网络。体系结构将是高度并行的，并且在整个设计中将会有重复的实例。所以你有这么大的标线，他们会把标线填满以承载主要功能的工作量。对于像I/O这样的东西，他们希望在同一个包中有一个具有快速接口的芯片，这样你就不必经历电路板寄生。在未来几年里，我们将在这个领域看到大量的创新。

Geada的解释我们正在处理物理问题。一皮秒是三分之一毫米。任何你推得更远的东西都是昂贵的。这就是为什么我们看到所有这些巨大的压力，让越来越多的东西越来越接近芯片。如果这是纵轴上的一系列小芯片，它们就没有那么有用了因为这只是把它带进包里，但不一定足够近。高带宽内存的一大优点是它在物理上限制了距离。然而，从7nm到5nm再到3nm的进程中有一个问题是成本。由于成本问题，短期内不太可能被广泛采用。在这些高级节点上进行物理设备设计是非常昂贵的。有很多事情你必须要小心。 There are a lot of simulations that need to be done to get working silicon. But the reticle limit is is no different at 3nm or 5nm or 7nm. The reticle is about an inch. If you want to put more transistors on your design, you have to move down to the next node, just because you’re fundamentally limited on how many transistors you can put in the reticle. And the reticles are not changing. We’ve explored the limits, and right now an inch is about as big a chip as you can make. So the only way to get more functionality is to go down a node, and I don’t see that pressure going away. Even with the AMD and Intel, they have a whole bunch of 3D-IC stuff. But the chip is already reticle-limited. They just needed to put stuff outside so they could pack in more processing power within the power budget that they have. I don’t see those pressures going away anytime soon. And it’s the same thing that’s leading people to do create application-specific designs. It leads to a more challenging back-end design environments. Yeah, there’s the optimization problem up front and figuring out whether you have the right architecture, but once you get down into the physical environment, now you have challenges that the EDA industry largely on the design side has been ignoring for a while. People do timing sign off assuming that the entire chip is at a single temperature or has a single voltage, or that they have a single process node. That hasn’t been true for a while. You have complex stack-ups that have 28nm stacked on top of 5nm with a memory at a different geometry and a different voltage. And that’s the reality that we need to deal with these days.

鲍耶:假设您是一名架构师，您正试图弄清楚如何在所有这些芯片上分布您的硬件。如果你做错了怎么办?想象一下，当你读到最后的时候，你意识到你的一个小纸片已经没有空间了。你怎么把这个东西推到别的地方?它实际上是关于功率和面积以及你能在这些应用上投入多少。今天我们看到关于如何分配这些东西的保守决定。你知道所有东西都能放进去，一切都会好起来的。但一旦你开始研究一种从未有人制造过的新芯片，而且你不确定它会有多大，这就变成了一个非常非常困难的问题。

Toffolon:很多电力来自互连。了解所有这些链路的功率分布是非常重要的，因为通常这些类型的链路是为最坏的情况而设计的。大多数供应商会提供最坏情况下的功率，但现实情况是，根据过程、电压或温度，甚至是通道本身，在高级IP链路或串行链路中有很多钩子，需要真正优化每个链路。能够在宏观层面上理解和建模这种能力——不仅仅是取一个数字并把它卷起来，而是真正理解整个解决方案的名义类型的能力轮廓——对预先建模是非常关键的。

王我们看到一些客户正在建造芯片系统，你可能有一个5nm的芯片，上面有很多计算，然后传感器可能在28nm上完成。但与此同时，客户转向5nm和3nm的原因是因为他们已经受到了网线的限制。否则，他们不会做3nm的晶圆。他们会做一个5nm的芯片。小芯片还没有广泛应用，尽管在某些情况下它是有意义的。3nm市场是由高性能计算和人工智能驱动的，这意味着巨大的芯片，大量的芯片，在数据中心的机架上，消耗大量的电力。我们面临的挑战之一涉及到对大量传感的要求。有了签名，你的芯片在一个PVT点上处于同一位置的日子已经一去不复返了，特别是如果你有一个十字线大小的芯片。在过去的两到三代中，我们看到芯片上的传感器数量在增长，从1个或2个增加到数百个，现在我们正在讨论接近1000个的传感器能做什么。这是大量的数据通过大量的骰子传输。 And they’re starting to move from sending data across 1 die to sending it across lots of die, and then making power tradeoffs across a system, which may be a data center or racks of servers within a data center. You’re not necessarily running a particular chip at a particular point. You’re basically balancing your electricity bill. That’s a different angle, perhaps, than what chip designers typically take. But being able to turn things on and off, and basically turn the wick up and down to cope with dynamic shifts in electricity use, is an interesting space.

相关的
7/5nm工艺的性能和功耗权衡(圆桌会议第三部分)
专家:安全性、可靠性和利润率都在领先的节点和先进的软件包中发挥作用。
自定义设计，自定义问题(圆桌会议第二部分)
与会专家:最先进节点的电源和性能问题。

埃德·斯珀林

(所有的帖子)
Ed Sperling是《半导体工程》杂志的主编。

7/5/3nm工艺的功率和性能优化

埃德·斯珀林

留下回复取消回复

知识中心博客

Chiplets

3 d

先进的包装

2.5 d

包装

三维集成电路

技术论文

热门文章

RISC-V推向主流

向小芯片进军

启动资金:2022年11月

高级节点IC应力影响可靠性

RISC-V解耦向量处理单元(VPU)用于高性能计算

知识中心
探索实体、人员和技术

相关文章

芯片架构的基本变化

内存设计如何优化系统性能

启动资金:2022年10月

启动资金:2022年11月

高级节点IC应力影响可靠性

重新思考机器学习的动力

热设计

芯片功率分布建模在7nm以下变得至关重要

赞助商

最近的评论

关于

导航

与我们联系

7/5/3nm工艺的功率和性能优化

埃德·斯珀林

留下回复取消回复

知识中心博客

Chiplets

3 d

先进的包装

2.5 d

包装

三维集成电路

技术论文

热门文章

RISC-V推向主流

向小芯片进军

启动资金:2022年11月

高级节点IC应力影响可靠性

RISC-V解耦向量处理单元(VPU)用于高性能计算

知识中心探索实体、人员和技术

相关文章

芯片架构的基本变化

内存设计如何优化系统性能

启动资金:2022年10月

启动资金:2022年11月

高级节点IC应力影响可靠性

重新思考机器学习的动力

热设计

芯片功率分布建模在7nm以下变得至关重要

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
探索实体、人员和技术