中文 英语

热保护带日益增长的挑战

保证金仍然是必要的,但它需要比过去更精确地应用。

受欢迎程度

随着芯片被应用于各种新的和现有的应用领域,热量防护正变得越来越困难,迫使芯片制造商在日益复杂的相互作用中设计出自己的方法。

芯片被设计为在特定的温度下工作,通常的做法是开发具有一定余量的设计,以确保在预期寿命的整个工作温度范围内正确的功能和性能。然而,这种方法正变得不那么有效,特别是在高级节点和一些处理元素始终处于开启状态或芯片全速运行的设计中,比如数据中心内部的人工智能芯片或依赖电池的边缘设备。在汽车领域,汽车制造商正在敦促供应商减轻压力和压力电迁移,这可能会缩短零件的寿命。

因此,设计团队开始转变,不再只是在设计中添加更多的电路。而guard-banding仍然在使用,它需要更仔细的定义和精确,它需要与更精确的热传感和不同的热管理方案一起使用。

“我们知道设计的工作温度直接取决于其功耗,但获得准确的功率分布是复杂和极具挑战性的,特别是如果有多个潜在的用例或场景,”李王说,技术营销工程师Mentor是西门子旗下的企业.“能够更准确地模拟设计的工作负载和温度分布,对于优化设计的性能和可靠性至关重要。集成到芯片设计、实现和验证环境中的热分析解决方案将是一个关键的推动因素。”

热保护带在设计中的多个地方发挥作用。例如,热监测电路有一定的误差,因此设计人员经常添加电路来补偿这些误差。但这降低了性能和吞吐量,因为频率节流,电路关闭和其他热管理技术应用于更保守的温度。由于过度设计,它提高了整体成本。

“如果你能够准确地感知和控制你的模具温度,有很多好处,”拉姆齐艾伦,营销副总裁Moortec半导体.“这些好处是通过节省电力、优化设备和可靠性实现的。”

Allen举了一个例子,涉及两个不同的温度传感器,都没有校准,一个稍微准确一点,一个稍微不准确一点,通过使用模具温度的温标,有85°C的目标温度。他解释说,电源管理软件可以设置为采取行动,无论是减慢时钟频率以降低设备的温度,还是在软件内设置热/温度警报。

“如果你的目标温度是85°C,而你的温度传感器精确到+/- 5°C,那么你就有了一个设定值或温度范围,可以在90°C到80°C之间变化。您的软件将需要在其最低或最坏的情况下设置为80°C。然后,再次考虑到温度传感器的不准确性,我们将这个问题复杂化,因为我们仍然必须考虑+/- 5°C,从而使最低点实际为75°C。如果我们现在使用一个精度为+/-2°C的更精确的温度传感器,同样是未经校准的,那么温度范围为87°C,范围的较低部分为83°C。这意味着,如果你将软件设置在这个水平上,你仍然必须考虑到+/-2°C的不准确性,将其降至81°C。”

通过添加一个良好的温度传感器,可以将软件的最低设定点设置为81°C,而对于一个不太准确的传感器,它将是75°C。在这种情况下,通过使用稍微更好的温度传感器,可以节省6°C的模具温度。Allen说,根据架构和应用的不同,这6°C的精度提高相当于节省5到10瓦的电力。

警卫带的起源
考虑一定的误差幅度并不是一个新概念。事实上,这种方法可以追溯到RF设计的早期。

“在射频设备的设计中,它可以应用于多个频段,”中兴科技软件工程总监CT Kao说节奏.“为了避免这些应用频段之间的干扰,可以在这些应用频段之间设置小频段。这是一种安全因素。这样一来,(SoC设计中的)保护带就像一个设计边界,可以确保设计的质量和可靠性。”

将这一概念应用于温度变化是最近的一项创新。在引入finfet之前,设计中与热相关的最大问题是电流泄漏。第一代finfet解决了这个问题,但产生了另一种动态功率密度。当热量被困在这些3D晶体管的鳍片中时,它会产生热失控,在10/7nm时,泄漏电流开始再次上升,电阻/电容会提高导线中的温度,这一问题会变得更加严重。再加上各种各样的变化来源、新的应用领域、日益异构的架构和新的用例,热管理成为一个更难解决的问题。但在大多数情况下,简单地增加电路并没有帮助,在某些情况下,它会使问题变得更糟。

热量对芯片的可靠性也有很大影响。德国卡尔斯鲁厄理工学院的研究人员最近发表了一篇技术论文,动态保护带选择:不可靠多核系统的热感知优化,他们断言电路老化已经成为现有和即将到来的技术节点的主要问题。根据这篇论文,偏置温度不稳定(BTI)导致晶体管阈值电压的增加,这反过来可能延长处理器的关键路径延迟,并可能导致定时错误。研究人员确定,为了避免老化引起的计时错误,设计人员应该根据电压或频率插入保护带。

实际上,警戒带仍然是有用的,但它需要以不同的方式和更具机会性地应用。原因是不同的工作负载对热量和最终系统性能有不同的影响,这反过来可能需要不同类型的保护带。研究人员建议,保护带类型应根据工作负载引起的温度进行实时选择,旨在优化温度和可靠性约束下的性能。此外,当具有不同属性的多个应用程序表明这可能有用时,可以同时为不同的核心选择不同的保护带类型。研究人员认为,与采用固定(在设计时)保护带类型的技术相比,他们的动态保护带选择具有更高的性能。

Cadence的Kao认为这篇论文提出了一个关于电路老化的非常重要的观点。如果晶体管的漏极电流降低,就会影响阈值电压,并可能提高时钟速率,从而带来可靠性问题。“在设备设计的最开始,设计师必须考虑这种影响,所以他们增加了电压保护带。如果它的工作电压是1.3伏,他们可能会增加1.38伏,频率也是如此。它基本上增加了一张安全网。”

这也增加了复杂性。“电压和频率保护带与温度有关,这就是术语'热感知'优化的来源,”Kao说。“从这个角度考虑——不管你是否有硬件来感知芯片上的温度,或者你想要降低与温度相关的电压或频率的裕度,你想要更准确地知道的关键是芯片上的温度分布。当然,温度传感器是做到这一点的一种方式,但更根本的是,如果模拟工具可以更准确地预测或模拟温度分布呢?这是实现不同防护带方法的基础。但是芯片上的温度传感器通过引入额外的电路来占用面积。从EDA工具的角度来看,我们正在开发具有这些功能的模拟工具,以更准确地预测芯片上的温度,考虑到环境影响,这意味着封装、电路板和整个环境。”

这介绍了晶体管设计的另一个方面,即晶体管老化和瞬态功率影响的物理。

“瞬时响应意味着你的芯片上目前有多个IP块,比如在手机中,”Kao解释道。“你在手机上看视频、聊天、做不同的事情,里面的芯片会随着时间动态运行。设计师想要考虑所有这些操作IP块或芯片的时变效应。他们希望优化不同IP块或不同芯片的功率输入,以最低功耗获得最佳性能。它不再是静态的了因为它是时间的函数。如果我们有合适的软件,我们可以毫不费力地进行瞬态分析或模拟,但我们确实需要一些东西来验证它,向客户展示我们的模拟与测量结果一致。”

这就是片上温度传感器非常有用的地方。Kao补充说,Cadence目前正在从工程方面着手解决这一切问题:瞬态冲击、动态功率和热都集中在一个仿真工具中,从芯片到封装再到系统。

同样,王指出,门拓的芯片封装系统热解决方案允许设计师在设计阶段的早期模拟热对设计的影响,直到设计结束。

Wang说:“为了在模具内获得准确的结果,可以应用正确表示封装和系统结构的详细边界条件。”类似地,精确的模具/封装模型可以传递到系统级,以进行精确的系统建模。支持细颗粒功率以捕获可能对线路延迟和热敏电路产生不利影响的热点效应和热梯度。”

结论
保护带是一种经过充分验证的方法,用于解释设计中的不同使用模型、变化和意外交互。但是,随着技术架构和优先级的变化,以及这些芯片迁移到最先进的节点,或者在复杂的包中,并不是所有的东西都具有完全的特性,仅仅在一个问题上投入更多的边际通常不会产生预期的结果。

边际是附加的,保护带越来越多地成为整个系统的电力、性能和面积的总预算的一部分。因此,它需要更精确地应用,并在正确的时间准确地应用在正确的地方。这使得保护设计变得更加困难,同时也使其在某些情况下更加重要。

有关的故事
新应用中出现的电力问题
为什么管理权力变得更困难、更关键、更昂贵。
为什么芯片会死
半导体器件在制造前后面临许多可能导致其过早失效的危险。
处理芯片中的阻力
在每一个新节点上,联系和互连都变得越来越有问题,但随着修复的进行,也会有权衡。



1评论

皮特克拉克 说:

作为一个温度测量设备供应商,使用非接触式红外,这是非常有趣的。
使用热成像,要知道我们只能“看到”皮肤的外部温度。即便如此,这可以表明定位热量积聚到亚毫米“像素”的分辨率。
但是要注意对流效应。对“有光泽”的金属表面也要非常小心。

留下回复


(注:此名称将公开显示)

Baidu