中文 英语

处理热问题的新方法

让芯片在可接受的范围内运行变得更加困难和昂贵。

受欢迎程度

新的热监测、模拟和分析技术开始在前沿节点开发的芯片和先进封装中融合,以保持这些设备在最佳温度下运行。

这在人工智能、汽车、数据中心和5G等应用中尤为重要。高温会杀死芯片,但也会造成更微妙的影响,比如随着时间的推移,芯片会过早老化。问题是很难解释这些芯片可能运行的所有用例和条件,以及复杂系统中所有潜在的交互作用。

电源管理技术已经存在多年,以使芯片保持在电源和热预算之内,但它们昂贵、耗时,有时难以使用。但它们也变得越来越必要,尤其是在安全和关键任务应用中。经济增长放缓摩尔定律这也带来了电力规模的放缓。对于大多数应用,电压已经完全停止缩放。

“这意味着我们有越来越多的黑硅,”Steven Woo说Rambus.“你真的不能同时打开芯片上的每个晶体管并使用它。这一趋势将继续下去。随着芯片的晶体管数量越来越多,功能越来越强大,暗晶体管也会越来越多,这就需要主动监控。”

在高性能计算领域的高端,可能会更多地使用先进的冷却技术。这包括水或某种形式的液体冷却,即液体在冷却板上输送,以及惰性液体中的浸入冷却技术。这对于主流数据中心来说仍然很少见,但这种情况可能会改变。

散热问题也促使公司重新思考芯片架构。过去只能装在一个芯片上的东西,现在正逐渐分散到一个封装中的多个芯片上。高温仍然是一个问题,但它可能更容易控制。

3 d-ic之所以会发生,是因为摩尔定律即将达到物理极限。”节奏.“我们无法达到2nm或3nm,所以在一个共同的衬底上添加了不同的功能,比如芯片和IP。我们不再在二维平面上构建多个芯片,而是开始向第三个方向发展,当你把所有这些东西都放在硅芯片内的一个小基板上时,所有的东西都是如此之小,而且你在隔壁的建筑里有漂亮的邻居。你想要分析的是,无论热量是瞬时的(实时的)还是静态的,如何将所有热量散发出去。过孔必须建立在建筑物之间,具有高导热性,因此热量将更有效地向下传递,通过基板,通过它下面的东西,如PCB,然后出去。这里的问题包括需要放置多少热通孔以及这些通孔的最佳间距。这些考虑因素很重要,特别是在设计中信号切换非常快,而且东西聚集在一起。”

可能的交互和配置的数量几乎是无限的。“有这么多的配置和这么多不同的电源分区-不同的块,以及块在芯片上的不同位置,在顶部的芯片,在底部的芯片,在中心的芯片,”诺曼·张,半导体业务部门的首席技术专家说有限元分析软件.“工程团队需要一种能够提供3D IC设计的实时热分析视图的工具。它不需要是一个非常详细的视图,在芯片上使用数百万或数百万的有限元机,但对于3D-IC设计插入器例如,热通孔的数量、放置坐标和热通孔的直径,这些都需要在几乎实时的模拟中完成。”


图1:预测芯片上的热量。来源:有限元分析软件

真实的用例
然而,监控并未就此结束。对于不同的应用和潜在的相互作用,热模拟只是一个起点。设备需要在现场进行监控,而这不仅仅是在温度达到最大设定值时发送警报。数据还需要收集、分析并反馈给工程团队,以便对现有设备进行调整,在可能的情况下,通过可编程逻辑、固件或软件以及未来的设计进行调整。

这并不总是像看起来那么简单。热监控器需要分散在一个模具上,而且它们都需要可靠地协同工作。Rambus IP核高级总监Suresh Andani表示:“如果你在芯片的某个区域感应到温度,然后数据转换器将其转换成任何数字形式,那么它就离得很远,准确性就会降低。”“为了测量芯片上几个地方的热点,你绝对需要这样做。”

Rambus一直在把温度监测二极管植入它所有的IP。Andani说:“你只需将ADC连接到它上,然后就可以读出温度。”“很多信息被输入到BMC(董事会管理控制器)。如果它进入服务器,有一个底板管理控制器读取并采取必要的行动,无论是电压缩放还是频率缩放,以冷却它。”

Stephen Crosher,首席执行官Moortec他认为,热监测是绝对关键的finFET设备。“对于28纳米和22纳米来说,这是非常可取的。如果是40,65,90nm,你可以仔细设计,尽量避免监控,尽管这取决于应用。在大节点上的低功率应用可能不太敏感。但是设计界的需求不仅仅是在finFET芯片上有一个或两个传感器。它在骰子上分布了数百个骰子,这样他们就可以更好地评估骰子的功率和活动。”

热监测的变化
热传感和热分析已经实现了很长一段时间,但它们已经有了显著的改进。采样率提高了,测量更加精确,允许芯片和系统设计团队在任务模式中进行调整。

Crosher说:“分布式热传感器可以在模具上无处不在地放置。“由于中心点非常小,因此可以在整个模具中进行热映射/分析。因为中心点实际上很小,你可以在整个模具上有策略地放置它们,而且数量相当多,这对应用非常有帮助。”

热传感器放置的位置取决于应用,他说。“在高性能计算应用程序中,芯片中可能有几个处理器核心。它可能是4个,也可能是16个,热传感器可以被放置在每一个核心中。因为传感点非常小,它们实际上可以在处理器核心内部。所以你对加热效应有了一些本地化的了解,因为软件让核心更加努力地工作,它们变热了。你可以非常仔细地感觉到。”

在人工智能应用程序中,放置了数百、数千甚至数万个人工智能核心或加速器,将这些监视器组合在一个集群中是有意义的,因为它们数量众多,Crosher继续说道。“就标准处理器而言,它们要小得多,因为它们只需要在短时间内进行非常专业的计算,以运行所需的学习算法或人工智能算法,而监控集群可以是4个重复元素,也可以是32或128个。”

汽车是另一个领域,工程团队正在寻找模具的热区域,这些区域将表现出最高的活性和最高的温度。这可能是一个接口块,一个高速SerDes或USB接口。“我们的要求是监控在最长时间内处于最高温度的点,因为这是你得到热应力的地方,这是会缩短芯片寿命的区域。对于汽车行业来说,这就不那么理想了。”

一旦测量完成,数据就会通过遥测技术发送出去。如果处于任务模式,它将转到主处理器或设备上运行的主要软件。然后,它允许设备通过软件减慢时钟频率或减慢时钟速度。当活动停止时,温度再次下降。如果设备变得太热,电源电压也可以改变。

此外,Crosher说,可以在模具内长时间监测温度。“如果你能长期监控整个产品系列的所有芯片,而不仅仅是一个芯片,那么你就会开始看到模式的出现。这就是事情变得非常强大的地方。你可以纵观一个产品系列,看到这一堆设备——或者这个特定应用中的这个产品,或者数据中心中的某些设备,或者某个国家的部分车队,无论它是什么——都在高模具温度下长时间运行,这意味着可靠性将受到影响。在这一点上,你可以做一些事情,可能是早期维护,召回产品,或以不同的方式处理这些设备,如减慢时钟或采取一些缓解措施,以便设备可以在其生命周期内运行更长时间。这是一个非常强大的东西,在分析方面有很大的机会。但是数据必须是可靠的,而且必须是精确的。然后你可以根据这些信息做出更好的决定。

对设备如何受到用例影响了解得越多,就越能理解在下一代设计中将传感器放置在哪里。这包括从了解热点中实际中心点的位置到如何设计未来的芯片以保持最佳工作温度等方方面面。

应用机器学习
另一个变化涉及实时建模,以验证芯片上的热传感器读数。Ansys的Chang说:“如果我们能够为热传感建立一个基于模型的数字双胞胎,我们就可以非常快速地进行功率计算,以及详细的热分析。”“如果你看看在具有数百万网格分辨率的芯片上运行的传统有限元方法,对于一个大型AI芯片来说,可能需要几个小时到15或20个小时。我们如何绕过这个要求呢?”

他说,在这里可以工作的是一种基于机器学习的方法来执行芯片上的热分析,对于每个特定的工作负载,可能在几秒钟内完成,也可能在一两分钟内完成。在这种情况下,特定的工作负载意味着特定的矢量场景在不同的块上为芯片工作。

Chang说:“这是第一个需要解决的问题——一个实时热模拟解决方案,可以为来自芯片的热传感器设置第二个读数。”“如果我们可以根据这一秒内发生的不同情况进行第二次热分析,我们可能会把时间缩短到100毫秒,因为热时间常数比电时间常数长,而热时间常数通常在100毫秒的范围内。这种热模拟是我们尝试做的第一步,我们试图拥有实时热模拟能力,使用深度神经网络来构建模型。”

与一个机器学习基于热求解器的方法,那么如何进行异常检测来检查来自芯片的热读数?人工智能可能会提供一些帮助。

使用一个神经网络型号,设计可以检查,以确定是否有热失控,如果散热器的连接松动,例如。它也可以用于由于温度升高而导致热失控的地方,温度升高会增加泄漏电流,并使设备进入热失控回路。

Chang说:“你将观察到热传感器可以捕捉到的局部热失控。”“然而,你不知道这个问题是由于热传感器故障还是由于其他问题。如果你有一个热模型,一个降阶模型或一个深度神经网络模型,它可以检查特定工作负载下的热读数。然后,例如,如果热传感器说这应该是85°,而模型说它应该只有65°,那么你就知道热传感器有问题,你可以调查这个问题。这是实时热模型/热分析的值,用于检查来自热传感器的热读数。”

另一种情况是由于高功率/低功率场景相互交织而产生周期性。由于周期性的高功率/低功率,这导致了漂移,这也可能导致基于周期性热读数的热失控。

同样,这类工程的数据方面对于确保更好的设计很有价值。

Chang解释说:“一旦你使用热传感器进行芯片内期限监测,你就可以使用这些数据来更好地设计你的芯片,根据功率限制,在哪里降低功率或增加功率,这样如果你的热包线没有达到最佳点,你可以增加运行频率,并更好地处理工作负载。”“你可以优化工作负载处理,对VDD和频率进行实时调整。对于AI芯片,这可以帮助划分工作负载,因为您不能同时启动所有GPU内核。由于不同的工作负载,您需要确定GPU的哪个部分将被打开,GPU或CPU的哪个部分需要关闭,因为您不想违反您的热配置文件/约束。通过热传感器和更好的热模型,您可以优化设计,并最大限度地提高性能,以处理工作负载。”

将最好的热模拟和芯片内热监视器结合起来似乎是理想的。目前的答案似乎是“有可能”。

他说:“一旦我们有了基于机器学习的模型,并能够提供实时性能和热模拟数据,就不再受数百万台有限元机器所需的长模拟时间的限制,并且可以针对不同的工作负载分区运行不同类型的工作负载。”“然后,可以立即检查热剖面,这对设计师非常有益。如果你使用传统的有限元方法,一次工作量需要5到10个小时,这太长了。”

Chiplets
所有这些都需要在整个行业正在进行的其他变化的背景下进行设置,例如为了缩短半定制设计的上市时间而在包中强化IP。Chiplets是这种方法中最著名的,它们对热管理的影响是未知的。

由单一供应商开发的芯片已经被英特尔和AMD使用。由多个厂商开发的芯片已经出现在各种公司和晶圆代工厂的路线图上。一个包中可能有十多个小芯片,它们通过一些互连连接起来,但彼此之间不一定是相互连接的。这些小芯片的特征和放置位置对热量有很大的影响。

Rambus的Andani说:“虽然与较大的芯片相比,这种芯片的功耗可能更低,但其面积非常小,因此散热有限。”“然而,芯片的功率密度或热密度可能是一个问题。整体功率可能比基础芯片小,但由于芯片很小,它可能会变得非常硬。例如,如果它是一个接口芯片,它以100Gbps的速度运行24个通道,那么当我们进入更多的系统封装类型的架构时,测量温度并采取一些操作的能力是非常关键的。”



留下回复


(注:此名称将公开显示)

Baidu