中文 英语

自热问题蔓延

设备、材料和包装技术的进步都导致了电力问题。但是你需要关心每一个晶体管和电线吗?

受欢迎程度

对于每一个新节点,都必须考虑额外的物理效应,但并非所有的物理效应都具有相同的临界级别。其中一个被提及频率更高的是自热。

所有的设备都会消耗电能,当它们消耗电能时,电能就变成了热量。西门子EDA Calibre设计解决方案集团DRC应用营销总监John Ferguson表示:“本质上,所有有源设备都会在导体移动时产生热量,从而为电流通过栅极创造通道。”“在历史上的CMOS时代,这种影响在很大程度上是可控的,因为在栅极处捕获的热量通过硅衬底散发的路径相对简单。不幸的是,CMOS方法最终遇到了物理限制,在这种限制下,它无法在稳定运行的情况下继续缩小尺寸。”

登纳德尺度也有影响。Synopsys TCAD产品组的研究员维克多·莫罗兹(Victor Moroz)说:“直到90年代,这个问题都不是问题。“这是因为人们能够降低电源电压,这确实有助于降低功耗。但一旦人们发现了技术的局限性,就无法将电源电压降低到0.7V以下太多。”

自热与活动有关。Cadence公司的产品管理总监杰伊•马迪拉朱表示:“在芯片最活跃的部分,自热效应最高,这给设计师带来了额外的瓶颈。”“当电路工作时,设备和互连的温度将根据活动量而增加。设备在运行过程中耗电时,会产生热量。同样,对于金属互连来说,由于电阻损耗产生热量,电流在互连中流动,即焦耳加热,从而导致温升。这两个因素都会产生热量。”

收缩会让事情变得更糟。Lightelligence的物理设计主管罗布•库恩(Rob Kuhn)表示:“随着设备和电线几何形状的减小,电流密度会增加。”“这加剧了自发热及其对性能和可靠性的相关影响。同样在高级节点中,finFET和纳米线器件进一步增加了自热,因为热导率降低,热量被困在器件附近很长一段时间。”

材料是有影响的。Cadence公司的Madiraju说:“用于制造设备的材料的变化导致热效应进一步增加。”“例如,低k介电材料比以前的金属间介电材料具有更高的热阻。对于65nm以下的传统节点设计来说,自热开始成为一个问题,随着特征尺寸的缩小,特别是对于高级节点工艺,即finFET设计,自热只会成为一个更大的挑战。

这些形状也会产生问题。“自热效应对finFET新三维结构的影响比平面器件更显著,”Ansys研发总监张天浩说。此外,finFET结构中使用的材料导热性差,以及被介电材料包围的隔离鳍片难以散热到衬底,导致finFET器件的温度较高。这反过来又会导致电线之间的热耦合效应更高。”

虽然扩展有助于解决一些问题,但其他问题会变得更糟。Synopsys的Moroz说:“从finFET的引入开始,功率密度就大到足以让人们注意到并开始担心它。”“晶体管密度以每年10%到15%的速度增长。一个晶体管的功耗降低得很慢,因为人们一点一点地改进技术。减小几何尺寸时,电容也会减小。功耗主要与电容有关,因为所有电路都在切换。无论你何时开关,你都必须给电容充电,而电容来自你试图开关的下一个晶体管。每当你给它充电或放电时,能量就会沿着其他元件——电线传递。所以当你减小晶体管的尺寸时,晶体管的电容就会减小,这有助于降低功率。因为它们变小了,它们之间的导线变短了,这也有帮助。 But it doesn’t keep up with the density improvements, and overall you see your power density keeps increasing.”

设备本身产生热量,热量通过封装、单板和散热器散热。西门子的Ferguson说:“新材料和非常薄的层与硅散热器的直接作用最小,增加了热阻。”“这使得散热更加困难。因此,设备被迫在更高且可能增加的温度负载下工作。这些高温会影响设备的阈值电压和性能,最终导致可靠性挑战。3D-IC设计的趋势可能会进一步加剧这个问题,进一步增加总散热路径。”

热量的产生和消散必须达到平衡。Moroz说道:“考虑下图1。“在某一时刻,你开始操作你的设备,温度上升,直到它饱和并稳定在这种平衡状态。这是因为你必须管理你的芯片的功率预算,以免整个芯片过热。如果你观察单个开关,从平面晶体管(左边)开始,它会打开然后关闭。在局部,晶体管的温度会越来越高,然后越来越低,越来越高,越来越低。但是因为它们有很多,背景会达到这些极限并停留在那里。当人们切换到finFET(中)时,总体上没有任何变化,因为它仍然取决于您的功率预算、电路活动和封装的散热能力。但finFET的翅片很窄,与平面相比,它不太擅长导热和散热,所以局部温度会更高。现在人们开始改用全能门(右图),热量更难从这些门中逸出,因为它们很小,而且周围都是不导电的东西。 So locally, there is a bigger problem. But for chip scale, nothing changes.”


图1:芯片温度和自热。来源:节奏

高温是薯条的杀手。即使温度没有高到足以破坏设备,该设备也会受到长期影响。“对于设备来说,自热会影响移动性和阈值电压,这反过来会限制设备性能并增加功耗,”Lightelligence的库恩说。“通过热载流子注入、时变介电击穿(TDDB)和负偏置温度不稳定性(NBTI),器件的长期可靠性会降低。导线的固有电阻随着温度的升高而增加,这通过减缓数据传输来影响芯片性能。随着时间的推移,自热也会加速电迁移效应,从而导致芯片故障。这两种趋势都随着技术的进步而恶化。”

行动计划
与所有问题一样,问题越早被理解,处理起来就越容易,成本也越低。过早老化设备的问题不仅需要对设计采取纠正措施,而且还需要更昂贵的现场更换有缺陷的部件。

Ferguson概述了三个首要原则:

  1. 建立器件行为的热影响模型,用于精确模拟预制造;
  2. 使用任何和所有方法来减少总热影响
  3. 寻找其他的消散路径。

大多数人会从最高水平开始。库恩说:“由于对芯片可靠性和性能的严重不利影响,对任何芯片或封装系统(SiP)的热流建模都是至关重要的。”Ansys和Cadence等公司提供的工具在这一领域变得越来越重要,因为它们允许设计人员识别可靠性和性能问题,并通过增加导线尺寸(降低电阻)和提高基板热导率等技术来缓解这些问题。”

所有的分析都从模型开始。Cadence公司的高级产品经理Art Schaldenbrand说:“器件建模社区(CMC)已经认识到需要考虑自热效应,最近的器件模型BSIM-C和BSIM-I也包括了自热效应。”“这些模型加上增强的模拟器,可以计算设备和互连中的功耗。铸造厂通常为高级节点工艺提供具有自加热功能的模型。当使用SPICE模拟时,设计人员可以解释自热对其设计的影响,从而深入了解由于其操作而导致的电路性能变化。虽然设计师可以在模拟中包含自热效应,但存在模拟性能成本,因此他们需要在分析热效应时采取策略。设计人员需要意识到,自热模拟没有考虑相邻设备的相互加热,根据设备密度,模拟结果可能是乐观的。”


图2:IC封装互连结构的温度分布。来源:节奏

其他的简化可能会导致悲观的结果。Ansys的张说:“芯片上统一的最差环境温度通常太悲观了。“为了获得准确、高分辨率的结果,基于瓦的,甚至基于金属层的环境温度,以及自热,∆T对于分析电路可靠性是必要的。”

建立晶体管自热模型够吗?“你产生的热量与你的阻力成正比,”莫罗兹说。“对于电线来说,它每微米会有几十欧姆。如果你观察一个信号网络,它是连接你的交换机到下一个交换机的电线。这通常是几微米长,网的电阻是几百欧姆。如果你观察一个晶体管,它有两种状态。这两个阶段之间有一个过渡,但这两个状态是开和关的。在关闭状态下,它有兆欧电阻。在开状态下,通常有几千欧姆的电阻。它控制了导线电阻。 So, if a wire is 100 ohms and your switch is 10 kilo-ohms, then the wire would generate heat but it’s 100 times less.”

虽然信号线的自热本身可能不是一个问题,但热耦合增加了这些温度。Ansys的Zhang说:“电线的高温对可靠性构成了挑战,因为为了满足预期的平均故障时间(MTTF),电线的允许电流更小。”“这是电迁移导致的故障,随着时间的推移,会产生不希望出现的开路或短路。”

电力网络中的电线有不同的担忧。“电力网比信号网复杂得多,”Ansys的产品营销总监马克·斯温宁(Marc Swinnen)说。“信号线是点对点或多点的,但电网是一个网格。你不能用相同的解算器来解它。你必须使用类似spice的电路模拟器。网络是巨大的。在一个有500亿个晶体管的芯片上,你需要连接500亿个电源和接地点。这比整个美国的电网还要复杂。每一小段电线都必须被建模成一个电阻,所以你有数千亿个电阻,你必须把它减小,这样你才能模拟它。只有这样,你才能准确地知道电流的流向和每一点的电压。电磁分析是免费的-这是一个可靠性问题,但你需要知道流过所有电线的电流。 This is also temperature-dependent, so you need to know the global temperature, and that depends on the heatsink and the environment. But temperature varies across the chip. In the past it was considered a single temp across the whole chip, but now we need to do thermal modeling and include Joule self-heating.”

减少供暖影响最直接的方法就是减少活动。这通常被称为暗硅。“高端服务器包每平方厘米耗电约50瓦,”莫罗兹说。“关键是你在芯片上使用的开关的一小部分不会超过这个数字。否则会过热。如果你看看今天的技术,你可以在1%的活动因子下实现能耗。这听起来可能很糟糕,但情况正在逐渐恶化,而且正在以每年5%或10%的速度一点点下降。”

这一切都从早期的系统分析开始。张说:“了解你的电力预算始于复杂的芯片-封装-板协同设计。”“后期的热问题会导致ECO圈变大,难以修复的问题,甚至设计失败。为了克服这一问题,在设计初期应考虑热效应,包括热感知功能块放置和热热点评估。这种考虑不仅有助于产生最佳设计,而且降低了自热影响,提高了整体设计的可靠性。”

散热变得越来越困难,尤其是多模系统。莫罗兹说:“你有一些凸起,把一个芯片连接到电路板上。”“还有一些散热器可以帮助你散热。中间是硅,它是一种很好的导热体,所以各处的热量都是均匀的,你可以等着封装散热。现在,如果你拿这个芯片开始在上面堆东西,这个材料的热导是多少?如果它是电介质,那就是个问题,因为它是热逸出的额外屏障。所以你必须确保电介质没有那么差。它肯定比硅更糟糕。但问题是,‘这样做还行吗?’然后,如果你没有用小薄片覆盖整个表面,而是有一些缝隙,这也会被一些有机胶水填充,这不是一个很好的导热体。”

人们正在研究一些新技术。弗格森说:“虽然我没有做过这方面的研究,但也许背后的权力分配趋势可能会有所帮助。”“通过tsv将电力输送到后面,并靠近设备,我们可以减少周围布线电阻对设备的附加热量,这可能会在设备热量横向传递并最终通过tsv传递时改善散热。”

结论
自热可能不是目前电路设计师面临的最大问题,但这些问题已经越来越多,足以引起人们的关注,而且在未来只会变得更糟。新设备、新材料和新包装技术都在加速解决这个问题,如果最大活动因子继续下降,在任何包装中可能做的工作量可能会停滞不前。



1评论

我和 说:

FinFET自热可能会带来严重的冲击——特别是在高迁移率SiGe PMOS的最新工艺中,导致“WTF?“当你发现局部自热是Si NMOS(或以前的节点)的两倍时……

留下回复


(注:此名称将公开显示)

Baidu