中文 英语

制造更持久的复杂芯片

专家:使用多物理场和大量计算来提高高级节点和包的可靠性和弹性。

受欢迎程度

美国半导体工程公司(Semiconductor Engineering)副总裁兼半导体总经理John Lee坐下来讨论先进封装和节点的设计挑战有限元分析软件;Shankar Krishnamoorthy,总经理Synopsys的设计团队;西蒙·伯克,杰出的工程师赛灵思公司;加州大学圣地亚哥分校CSE和ECE教授安德鲁·康(Andrew kang)。本次讨论在Ansys举行创意会议

下图,从左到右:John Lee, Shankar Krishnamoorthy, Simon Burke和Andrew kang。
左至右:Ansys半导体副总裁兼总经理John Lee;Synopsys设计集团总经理Shankar Krishnamoorthy;Xilinx的杰出工程师Simon Burke;加州大学圣地亚哥分校CSE和ECE教授安德鲁·康(Andrew kang)。

SE:根据领先的代工路线图,至少还会有几个工艺节点。我们希望看到什么样的问题?作为一个行业,我们将如何解决这些问题?

李:我们看到的一个关键问题是多物理场的收敛。随着finFET密度的增加,功耗会更加集中。这反过来又会导致红外下降、热效应的增加,并对时间产生影响。所以多物理场的融合是一个挑战,但也是一个机会。

Krishnamoorthy:这是一个全方位创新的黄金时代,从材料和工艺一直到标准单元架构,再到EDA,再到软件层。整个行业正在努力实现性能提升1000倍。我们真的看到了实现这一目标的巨大机遇,所有这些创新都需要结合在一起,相互增殖,才能实现巨大的收益。

伯克:摩尔定律并没有停止,但它的速度正在放缓。我们仍然看到了利用新流程节点的能力,但我们没有看到过去所使用的扩展优势。EMR (非凡的磁阻)和热在新的工艺节点上正成为更大的问题。因为摩尔定律没有像我们想要的那样缩小模具,我们正在探索其他技术途径。这给了我们更大的设备,在系统级别上很难组装。挑战越来越多,让下一代人走出家门也变得越来越复杂。

Kahng:最近的声明表明,有必要预先对技术定义进行系统审查,因为进度的延误不仅会损害国内的发展,也会损害世界的生态系统。特别是晶圆代工厂,需要承诺积极的投资回报效益和时间表,以获得客户的投资和承诺。但如果这一疏忽,就有问题了。怎么解呢?我们如何获得可预测和可扩展的设计方法?然后,我们如何扩展设计自动化、学习的范围,以及以其他方式减少工作量并按计划实现价值轨迹。

SE:在过去,在最先进的节点上开发的芯片在手机上只能使用几年,而在数据中心则可以使用4年。现在,在数据中心,它们应该可以使用7年,而在汽车领域,目标是18年。我们如何在不降低性能的情况下实现这种寿命?

Kahng:我们处理这个问题已经有很长一段时间了,而且有一些传统的方法来监测活动——在建筑、设计和使用方面的可行性——这些方法仍然是相关的。也许还有其他的帮助。如果您只是在一个控制良好的数据中心环境中进行24 x 7的视频转码,或者如果您在液氮温度下进行HPC,那么可能会有更少的角落和更少的保护带。这也有助于游戏设计的长寿。

Krishnamoorthy:除了安全和保障之外,我们还将弹性视为设计团队正在优化的新目标。弹性的很大一部分体现在老化中——能够衡量和优化设计的健壮性。整个行业正在进行大量工作,以使设计更健壮,更能适应设备老化。但故事并未就此结束。它一直延伸到现场操作,嵌入监控器和传感器,并在监控器和传感器反映性能下降时具有自适应行为。然后,你优化软件堆栈来应对这种情况。我们认为这是一个全生命周期的问题,从设计到制造再到开发,一直到领域。这正成为一个一级问题,尤其是在数据中心、汽车和物联网领域。

伯克:从FPGA的角度来看,我们的细分市场在很长一段时间内都需要很长的寿命。当你进入国防领域或一般情况下,这些寿命很容易达到10年以上。我们正在看到新的市场,汽车就是一个很好的例子,他们使用了更多的电子产品,但要求与机械部件相同。但长寿命一直是我们在FPGA业务中一直在处理的问题。我们只是看到这种需求在不同的市场空间中不断扩大。

李:对于高可靠性电子产品,有很多方法和技术。我们现在能够做的是增加基于物理模拟的使用,并通过各种技术使其可用。与10年前相比,计算的可用性要大得多,随着我们进一步展望云,加速计算有了新的机会。然后,我们将AI和ML(智能蒙特卡洛)在数学上的一些进步结合起来,我们能够对电子设备运行寿命期间将发生的事情进行更好的预测建模。所以我很乐观,我们已经准备好了所有的工具来解决你提到的应用程序中的这些问题。

SE:弹性是否像动态分区一样,你说一个块没有正常工作,因此数据或计算需要重新路由?

Krishnamoorthy:是的,许多云服务提供商已经这样做了一段时间。这真的只是达到了一个新的水平。有一种概念是跟踪整个系统在数周、数月和数年的运行过程中的性能,当你看到性能指标开始下降时,它就会根据该系统的期望自动调整上面的软件堆栈。所以仅仅因为频率下降,或者仅仅因为温度节流增加,并不意味着你必须让那个特定的插座失效。您仍然可以继续使用它,但用于不同的应用程序集。这种适应性的概念,你从芯片上读取数据然后适应性地使用底层应用程序将真正达到下一个层次。大败已不再是一种选择。这是优雅退化的概念,延长了平均失败时间。这些都是一阶问题。令人兴奋的机会是让硅本身与监视器、传感器和其他类型的读数一起参与其中,然后让固件和上面的嵌入式软件层与这些读数协同工作。 We have an opportunity here to create very adaptive systems, which is essential for these types of applications.

SE: FPGA界是如何应对这种情况的?

伯克:显然,fpga会重新编译,但我们不会根据芯片的操作来改变编译。相反,我们在设计中增加了裕度,在一些物理设计方面增加了冗余,以使寿命更长,并随着时间的推移提高可靠性。但是函数就是函数,从头到尾。我们还没有讲到它的动态重构。我们确实支持将动态重新配置作为我们设计的架构特性,但这更多地是为了实现功能。如果有人想要一个正在运行的FPGA,并重新配置它的一部分来做其他事情,你可以使用它来解决一些问题。但当它们开始工作时,我们不会关闭芯片的某些部分。我们试图延长芯片的每个部分的使用寿命。这就是目前的做法。

SE:这一切都能被模拟出来,以找出复杂芯片或封装中会发生什么故障吗?

李:在计算上,这是一个很大的挑战,我们正在与学术界和我们的合作伙伴合作来解决这个问题。我们专注于基于物理的模拟,我们认为这是一个巨大的机会,可以在设计周期中更快更早地实现智能。通过计算物理和设计技术的交叉融合,我们可以获得丰富的知识。

SE:当前的工具能跟上吗?

Kahng:小众技术、集成或架构环境的服务总是滞后,如果不是服务不足的话。工具已经与领先客户的需求共同发展——Xilinx、Qualcomm、Apple、Nvidia、AMD、Intel和代工厂。因此,一个问题可能是,这段共同进化的历史是否在某种程度上遗漏了今天长尾理论的重要部分。这些将是未来重要的应用,例如用于3D和2.5D集成的内存和AI加速器。我知道EDA公司和他们的合作伙伴正在努力解决这个问题。

李:我们看到的一个有前景的研究和合作领域涉及到芯片传感器,我称之为数字双胞胎,这是一种数据驱动的电子半导体部件的现场操作。我们可以用现有的基于物理的模拟模型来增强这一点。因此,一个混合的人工智能系统,它是数据驱动的,也是模拟驱动的,预测是确保电子设备在野外最大寿命的方法。这不是非此即彼的问题。这是一个组合。这是一个打破数据之间存在的一些竖井的例子,拥有一个更加开放和可扩展的基于平台的方法将有助于解决这些问题。

SE:在过去,大多数为汽车应用开发的芯片都是在较老的工艺节点上开发的。现在我们正在研究7nm和5nm芯片在极端环境下的应用。芯片行业如何应对这种情况?

Krishnamoorthy:过去使用的基于角落的方法是一种方法,今天许多客户正在这样做。通常情况下,汽车芯片会在200或300多个弯道停产。但随着最近统计变异方面的进展,我们真的有一个绝佳的机会来研究许多问题,比如电源完整性和设计的稳健性。将基于角落的分析与统计建模和电力完整性结合起来,深入到分析的各个方面,这是几乎所有顶级公司都在做的事情。这也为云加速之类的东西打开了大门。当您试图在整个参数空间中计算那么多点时,使用云来加速是工作流加速的一个关键元素。你真的必须把静态时序分析与信号完整性、设计鲁棒性结合起来,然后在一个非常大的工作点集合上进行。

李:如果你看看汽车、航空航天和国防等极端环境,或者5G基站和微电池,所有这些的共同主题都是热分析。非常重要的是要有一个热工作流程来理解周围环境的电子冷却,但你也需要达到纳米级别并对特定的设备进行计算分析。要做到这一点,暴力是不可能的。但如果你使用先进的技术,这些技术是有层次的和多尺度的,这是可能的,这是我们开发的一个全新的模拟能力世界。它有助于解决热模拟方法。然后,我们需要把它与芯片上的热传感器连接起来。它从芯片中获取测量数据,并调整电子系统的性能,使其不会过度压力。有一些工具可以结合起来进行非常详细的基于物理的模拟,跨越多个角落,从系统级一直到纳米级。但要使它有用,你需要修改设计,这样你就可以有一个安全运行多年的设备。

伯克:从解决方案的角度来看——尤其是像汽车这样的市场,目前增长迅速——需要的计算量比我们过去在这些市场看到的要多得多,而且包装也更加困难。这是一个极端温度的地区,冷却方案不是最佳的,而且对计算机的要求也在上升。这些系统通常是多模具,具有极端的热和机械。这类市场确实在挑战我们需要做的事情的边界,以建立一个可以持续10年或20年的可靠系统。

Kahng:你在许多评论中听到的是高性能计算与移动、信息和通信技术融合的趋势,无论是在你的家、你的车还是你的笔记本电脑上。对硅的需求正在增长,尽管我们在扩展电力输送网络、热和电力完整性等方面遇到了越来越大的困难。

李:如今的芯片公司在设计系统时,会使用大量的仿真,而且他们有大量的仿真数据可供使用。挑战在于如何利用这些模拟数据,并将其与有效的动态热管理策略联系起来。这意味着尽早从模拟数据中分析热效应,然后将其与物理设计联系起来。我们确实比过去更早更广泛地解决这些问题。



留下回复


(注:此名称将公开显示)

Baidu