中文 英语

热设计

当热问题成为一个系统问题时,需要尽早解决方案。

受欢迎程度

从电子表到数据中心,热量已经成为各种半导体的主要问题,在高级节点和高级封装中,热量尤其难以消散,这一问题正变得越来越严重。

底部的温度finFETs而且棉酚场效应晶体管可以不同于那些在晶体管结构的顶部。它们也会根据设备的使用方式、使用频率和位置,以及特定设计中使用的电线直径,甚至是芯片或封装的特定区域而变化。由于某些电路运行过热而导致系统性能下降的情况并不少见。

此外,过热的DRAM会导致电路过早老化和数据丢失。它可以扭曲薄晶片和中间层。它可以通过不同材料之间的不同膨胀和收缩产生机械应力,导致从芯片角落的焊锡球破裂到芯片内部结构崩溃等一系列问题。

虚拟系统开发组经理Christoph Sohrmann说,除了肉眼可见的东西之外,还有量子层面的干扰。夫琅和费IIS自适应系统工程部.“由于声子散射,人们观察到通过薄的纳米级材料层的热阻增加。当进一步下降到原子或量子水平时,高温通常会损害纳米系统的功能,例如通过热展宽或热弛豫。”

这意味着需要在设计流程中更早地处理热因素,在那里可以识别、理解并适当地处理它们。

“热问题已经从一个组件的问题扩展到一个系统的问题。Rambus.“在过去,系统热量是在设计周期的后期考虑的,但你再也不能这样做了。热约束必须作为一流的设计参数,在设计的最初阶段充分考虑。如果你一直等到最后,你就有可能不得不拆除系统设计中的所有内容并重新开始。”

John Parry,电子和半导体模拟中心主任西门子数字工业软件表示同意。他说:“越早使用模拟越好,因为你经常会面临许多不同的选择。”“在早期设计中,你必须很快地探索、评估和评估那些行不通的方法或配置。要做到这一点,模拟是非常关键的。它还有一个好处,如果你能在早期做出正确的选择,你就能想出一个你有信心能成功的设计。当涉及到高级包装时,由于强烈的热和机械挑战,将模拟提升到设计流程的转变尤为重要。”

仅仅在芯片或封装上放置一个巨大的散热器并不能解决问题,特别是在复杂的设计中。在这些冷却设备有机会工作之前,芯片可能已经损坏了。

“很多人一开始就关注性能基准,但这正是他们陷入麻烦的地方,”公司的产品营销总监梅里卡•罗山德尔(Melika Roshandell)说节奏.“在设计的最初阶段,他们决定使用什么技术、什么架构、在哪里放置不同的ip,以及这些ip的频率。他们认为以后可以通过将风扇和散热器结合起来解决散热问题。这种规划可能会导致缺少基准测试,因为IP上的温度传感器可能会抑制它。”

虽然温度传感器可以降低热失控和芯片融化的风险,但它们也会产生自己的问题。它们需要小心地放置在热量最可能积聚的地方,这可能并不明显,因为芯片或封装的其他部分可能充当转移热量的管道。

“如果你的传感器放错了地方,你可能以为你的温度是80度,但真正的热点可能是100度,”该公司的区域技术经理Calvin Chow说有限元分析软件.“在这种情况下,你根本没有节流,结果可能会对你的芯片造成重大损坏。你要确保在产生热量的地方安装传感器。”

图1:多物理场模拟,包括热对机械应力的影响以及封装和板不同区域的热图,以及建立正确结温的CFD。来源:有限元分析软件

图1:多物理场模拟,包括热对机械应力的影响以及封装和板的不同区域的热图,以及CFD(计算流体动力学)来建立正确的结温。来源:有限元分析软件

imec的系统/技术项目主管詹姆斯·迈尔斯(James Myers)说,好消息是温度传感器现在正以更复杂的方式使用。“如果你让芯片保持高温,那么老化就会加速,所以你最终可能会让芯片运行得更慢。人们应对这一问题的一种方法是使用传感器跟踪温度历史。因此,与其为最坏的老化情况留出余地,例如,你让芯片一直以90度运行10年,你可以使用传感器来建立一个时间阈值。而不是在阈值温度下节流,你可以在它保持该温度一段时间后节流。”

2.5D, 3D芯片
热挑战现在是先进封装的一个固有方面,曾经新颖的结构正在成为芯片设计的共同特征。

帕里说:“你面临着各种相互影响的挑战。“从一个骰子的角度来看,一个好的解决方案实际上会让下一个骰子的情况变得更糟。就像打地鼠游戏。你解决了一个问题,它会在另一个领域给你带来问题。例如,热挑战和机械挑战通常需要权衡。这在键层中很常见。这有助于缓解材料两侧的相对膨胀,例如在晶片模具和硅中间体之间。制造更厚的层(包括互连层)可以减轻机械应力,但增加了热流通过该层的阻力,这反过来会使不匹配更严重,并使材料选择和设计决策变得棘手。”

其他人也同意。“散热一直是一个问题,但3D和2.5D IC设计加剧了这一问题,”Chow说。“这是因为当你有堆叠的骰子时,热量就不容易散失。最重要的是,模具之间存在热耦合,这可能会导致影响性能的可靠性问题。从根本上说,设计师必须在早期阶段就做出热决策,因为从可靠性和性能角度来看,所有的后续影响都是如此。”

随着数字逻辑的不断扩展,这种情况尤其明显。因此,尽管GAA fet可以帮助解决静态泄漏问题,但动态功率密度仍在继续增加。这反过来又会产生更多的热量。

“硅的热导率相当不错,约为150瓦/开尔文,如果你比较一小块硅,它的速度会减慢约30倍,”他说Synopsys对此维克多·莫罗兹。“因此,与通常的大硅片相比,这些小片内部的热运动要慢30倍。副作用是GAA通道内的峰值温度比finFET峰值温度高。局部峰值温度较高,会加速老化,降低性能。”

思考未来
没有适合所有设计的最佳解决方案。解决热问题的方法有很多,但在复杂性、成本和性能方面可能有所不同。这就是为什么必须在设计周期的早期处理它,并且需要在设备将如何使用以及哪些组件将产生热量,产生多少热量以及产生频率的背景下进行模拟。

挑战在于热量会随着时间的推移而增加,而这通常不会在芯片层面上进行分析。“为了热的目的,这些时间常数需要更长的时间来捕捉热的行为,”Chow说。“这意味着我们必须在很长一段时间内捕获功率,获取模拟数据,获得功率分布,并将其应用于模具,以便在早期正确地进行热分析。只有这样,工程师才能说,‘我有我的功率号,我的功率信息,我可以做我的热分析。这个平面图优化了吗?我有足够的tsv和微碰撞来分配能量吗?’”

图2:系统级热映射。来源:有限元分析软件

图2:系统级热映射。来源:有限元分析软件

与此同时,工程师们往往低估了纳米系统内自加热和温度分布的复杂性,弗劳恩霍夫的Sohrmann说。“微系统内的热导率比电导率的变化小几个数量级,这使得准确预测温度分布更具挑战性。热分析的复杂性导致工程师完全忽略了精确的模拟,而使用最坏情况的值。这可能会导致设计边际的浪费,在高级节点中可能会变得非常昂贵。因此,我们需要付出更多努力来解决这个复杂的问题,并创建在广泛的参数、布局或边界条件下都有效的简化模型。”

美光NAND组件营销总监丹·道尔(Dan Doyle)从热的角度提供了一些改进系统的建议和例子。“如果要生产几种形状因素,在建模和早期测试中分析最坏情况的形状因素。环境温度很关键,应该模拟最坏的情况。工作负载也应该是最坏情况,对于客户机系统,数据缓存为空和数据缓存为满通常会有很大不同。如果初始结果不令人满意,一定要用TIM(热界面材料)来评估性能。并尽可能利用现实世界的客户数据,因为它可能具有指导意义。”

此外,美光的产品架构总监托尼·维奇(Tony Veches)表示,以客户为中心是很重要的。“由于工艺、设计和包装之间的相互关系,这些领域的工程师密切合作对于为客户找到创新解决方案至关重要。必须详细了解客户的工作量,并确保客户和供应商架构团队之间的紧密合作,共同模拟并共同优化组合系统。”

冷热摆放
楼层规划在热规划中变得至关重要。迈尔斯说:“关键是要有意识地使用能源,确保每焦耳、每瓦电能都在你想要的地方。”

这在高级节点上尤其重要,但在成熟节点上也很重要,特别是在AI加速器和架构可能会产生高温的地方,以及在异构的高级封装中,热效应会因不同的组合和放置而不同。

“你不仅要考虑组件,还要考虑组件的位置,”Rambus的Woo指出。“你得到的是清洁空气来冷却它,还是脏空气?”清洁空气是当它第一次进入底盘时,总是首选,因为它往往是最冷的温度。污浊的空气更难以计划,因为它已经漂浮在热的部件上。我们从一开始就例行地问这些问题。在过去,我们不一定非得这么做。”

根据Woo的说法,理想的情况是尽可能保持气流的导流,因为不受干扰的气流最有能力吸走热量。“散热系统是底盘设计中不可或缺的一部分。最热的部件应该首先看到进入底盘的空气,因为这是最低的空气温度,当它通过底盘时将会升温。通过热通道和冷通道的使用,热设计已经从机箱扩展到数据中心。服务器的正面面对着冰冷的通道,它们可以吸入冷空气。当空气穿过服务器时,它会被加热,并从服务器的后部排到热通道中。”

定制的硅
植入芯片的挑战在于,作为一种节省成本和时间的措施,芯片通常是现货订购的。在这种情况下,芯片设计人员不知道芯片最终将放置在哪里,并且可能没有系统设计人员的特定配置。

答案是,至少对于一些较大的参与者来说,是创建自定义ic。这些专有设计被称为“定制硅”,由内部芯片和系统团队共同创建,因此每个人都可以在相同的热预算的限制下进行设计。

但对于规模较小的公司和预算较紧的公司来说,问题仍然存在。芯片可以在特定温度下进行测试,但不一定在所有情况下都进行测试。“这凸显了模拟的重要性,”帕里说。“较小的公司能够更好地采用将模拟工具集成到产品设计套件中的新方法。”

黑硅
处理热问题的一种方法是“黑硅,在不使用电路时关闭电路以节省电力。Arm开创了这一概念的商业应用,迈尔斯在转向imec之前是它的支持者之一。

迈尔斯解释说:“这是非常具体的设计。“在移动领域,有很多的异质性,所以可以有一个新的工艺,包括一些新的逻辑设备和更多的晶体管。您可以添加另一个加速器、rnn、cnn和专门的视频编解码器。然后这些块会通电一段时间,但它们不会永远热。”

然而,暗硅并不是一个适用于所有情况的答案。迈尔斯说:“在其他类型的设计中,比如用于人工智能训练的大型图形处理器,它们将一直处于工作状态。”“因此,你必须在他们之间平均分配权力,因为这是并行的工作量。如果你只是为了提高性能而增加功率,你会发现当你开始包装时你可能不得不降低频率来满足你的冷却限制。因此,只有在热净空范围内才能发挥性能。”

液体冷却
散热器和风扇并不是减少热量的唯一方法。他说:“还有浸入式冷却,也就是把电路板放在惰性液体中。“他们没有电容量充电,所以他们不能让电路板短路。”

根据Woo的说法,浸入式冷却在近半个世纪前由Cray首次申请专利,但由于费用高昂,它只在超级计算机领域使用。现在,它正被考虑用于更小的系统,以及微流体冷却。在后一种方法中,冷却液体通过密封的内部通道流动。微流体冷却主要处于实验阶段,但有一天它可以为更小的移动设备提供浸入式冷却解决方案。

传统的方法也有新的变化。迈尔斯说:“顶级超大规模数据中心运营商在冷却系统上做了大量工作,包括使用温水而不是冷水等非直观的东西。”“他们在送回去之前不会冷藏。他们送回来的时候有点热。这比冷却速度更快,成本效益更高。”

新问题——背后的电力输送
最新的架构创新之一是背面电力输送,其中晶圆的背面用于电力输送,而不仅仅是一个被动载体。因此,不再是在硅片的一侧制造电子设备,而是在另一侧输送电力。这使得处理更加困难,但它显著地缓解了拥堵——至少在理论上是这样。

Synopsys的Moroz说,虽然目标很明确,但功率密度和规模仍然可能会产生热量问题,这需要在规划中考虑到。“我们依赖硅模具,因为它们很厚,大约有几百微米,这意味着它们可以垂直和横向地转移热量。如果有一堆热点分布在周围,你知道热量会横向移动,使温度更均匀。因此,热点变得不那么热,而它的邻居得到一些热量。但是背面功率传输的硅晶片非常薄,只有几百纳米,这意味着横向传热非常糟糕。只是没有足够的空间横向转移热量。这可以通过使用高图案密度的背面铜线来缓解,这样铜就可以帮助热量逸出。”

Moroz还指出,有一些技术可以将热管理委托给特殊的片上电路来检测这些问题,并通过重新定向电路活动远离热点或在不可能重新定向时减慢速度来实时管理这些问题。

结论
即使是最好的规划也不能消除对热电源管理的需求,这可能仍然需要刻意调节性能。“要么很慢,要么就会融化,”一位消息人士说。更好地控制权衡的唯一方法是将热考虑转移到设计过程的早期。

莫罗兹说:“你可以说,‘有几个热点会变得很热,所以让我们引入一个设计余量,让一切都慢20%。’”“或者你可以有一个反映所有材料、组件和配置的模型,然后它更精确地告诉你热点在哪里。也就是说,你可以设计一个电路,在某些地方退化20%,但在其他地方表现更好。”

但这也是假设这是在设计周期的早期完成的。Cadence的Roshandell警告说,在后期制作中,没有办法解决热失控的问题。“唯一的解决方案是使用新的胶带。”

相关阅读
保持IC封装的低温
工程师们正在寻找从复杂的模块中有效散热的方法。
DRAM热问题达到危机点
晶体管密度和利用率的增加正在产生内存性能问题。
先进包装的未来挑战
osat正在努力解决一系列问题,包括翘曲、热不匹配、异构集成以及更细的线条和空间。
芯片热地板规划
许多因素会影响模具或IP的温度,但如果不进行热分析,可能会导致系统失效或性能不佳。
在系统中映射热量
解决热问题需要结合更多的工具和策略来消除热,并在设计流程的早期进行更准确的热分析。



留下回复


(注:此名称将公开显示)

Baidu