中文 英语

影响高级节点可靠性的芯片应力

在不同的设计、不同的用例中,热不匹配会影响从加速老化到翘曲和系统故障的一切。

受欢迎程度

热诱导应力现在是晶体管故障的主要原因之一,随着越来越多不同种类的芯片和材料被封装在一起用于安全和关键任务应用,它正成为芯片制造商的首要关注焦点。

造成压力的原因有很多。在异质封装中,它可能源于由不同材料组成的多个组件。“这些材料具有不同的性能,如热膨胀和导电性,”美利卡·罗山德尔(Melika Roshandell)说节奏.“当我们在这些设备中使用能产生热量的电源时,设计中的各种组件会有不同的表现。这可能会导致BGA球开裂和设备屈曲等问题,从而导致损坏。”

张德昌,电子,半导体和光学业务部门的研究员和CTO有限元分析软件解释说,在3D-IC上,应力主要是由两种材料之间的热膨胀不相容系数(CTE)不匹配引起的翘曲和位移引起的。

Chang说:“例如,硅材料的CTE为2.6,而封装材料的CTE为6,PCB的FR4的CTE为17 PPM/°C。”“热诱导应力可能是由3d - ic中不同材料的不同膨胀和收缩率引起的,在测试过程中,不同的工作负载或热循环产生的温度梯度。存在与封装相关的机械应力,包括介电开裂、界面裂纹、焊点疲劳、铜迹裂纹和由于热机械应力引起的封装分层、由于湿机械应力引起的潮气膨胀失效和蒸汽压引起的“爆米花”开裂,以及由于电热机械应力引起的电迁移电热机械迹破坏。对于大型3D-IC设计,应力可能会在极低k介质等区域引起翘曲和应力/应变。”

所有这些都会影响设备的可靠性。Chang说:“为了加速器件通道中的移动性,在某些硅晶体方向上有意设计了应力。”然而,翘曲和应力也会影响设备和互连的性能。考虑到3d - ic中的应力分布,计算电性能影响并不容易。晶圆代工厂可能会给出3d - ic中允许的最大翘曲/应力指导方针,设计人员应避免超出限制。”


图1:电子系统中的多物理应力。来源:有限元分析软件

许多数学方程被用来模拟热致应力,其中大多数包含一个阿仑尼乌斯方程组件。“这表明,对于某些特定的效应,存在特定的活化能,一旦你创造了一定量的能量,那么这种效应就会发生,”罗布·艾特肯(Rob Aitken)说Synopsys对此的家伙。“当你提高一个系统的温度,你就增加了能量,你就增加了这些事件发生的可能性,所以你会看到无论它是什么,都取决于温度的指数级增长。”

也有布莱克电迁移方程,它与平均故障时间(MTTF)有类似的温度依赖性,以及电流密度依赖性,其中越高越差。

随着温度的升高,一些效应——热载体、电迁移、电压应力和温度应力——会恶化。“这与模具温度的统计变化相结合,这意味着在平面器件中,会有这样的影响,‘哦,情况变得更糟了。偏置温度不稳定性(BTI)是典型的例子,”艾特肯解释说。“情况变得更糟。你关掉它,它会变得更好,但随后又会变得更糟,就像锯齿一样。如果它从来没有机会放松,那么下一次锯齿就不会下降那么多,随着时间的推移,它只会变得更糟。”

这里的相关方程是统计模型,它假设如果你有足够多的实例,它们就会遵循这种行为。简单地说,你认为他们会随着时间的推移以可预测的速度失败。这是几乎所有可靠性分析的基础,可靠性分析本质上是一种及时失效机制。

艾特肯说:“虽然有很多方程,但也有一个挑战,那就是你可以在宏观层面上对这些事情建模,即使在微观层面上你可能无法做到。”“这意味着你必须假设设计流程的人着眼于设备层面,找出设备层面的可靠性概况,并在此基础上创建某种老化模型。再说一次,你可以有世界上最好的求解器,但它不能解决所有的实例。你必须做出选择。”

当事情变得更糟
压力并不是一个新的挑战,但在90nm之前,它在很大程度上被忽视了。

该公司产品管理总监约翰•弗格森表示:“从那时起,我们开始更加认真地对待它。西门子数字工业软件.在SoC设计中,我们通常进行CMOS设计布局的方式存在一些奇怪的问题,例如共享源漏,可能在一口井中有多个有源。这些特性产生局部应力,影响单个晶体管。这就引出了一个问题,‘如果我把所有这些都放在一起,但其中一些工作方式不同,会发生什么?我该如何预防呢?’”

虽然没有单一的解决方案,但有很多方法可以减轻各种压力的影响。”刚果民主共和国规则总是说,‘如果你把这些东西放得太近或太远,我们知道它们会很可怕,’”弗格森说。“90nm节点是我们开始引入将应力影响添加到具有高级属性的后布局模拟的概念。这意味着网络列表中的每个设备都有一个属性,表明其压力。”

然后将这些数据输入到工艺模型中,这在90nm工艺时期是一个非常头疼的问题。“如何定义这些,包括当事物串联、并行时会发生什么,以及它们是如何变化的,最终都得到了解决。我们相处了一段时间。”

现在,随着业界为各种封装格式的芯片做准备,它变得更加成问题。

弗格森说:“从纯机械应力的角度来看,你必须考虑的不仅仅是设计芯片,还有它下面的另一个芯片。”“有很多不同的考虑。你还必须明白这给这些设备带来了压力。热又增加了另一个影响。它基本上是在想,如果你把一个东西放在另一个东西上面,它会让它变暖。你穿的外套越多,它就越重,你就越暖和。这就涉及到一个衰老的问题:你还能活多久?这是一个非常重要的问题。在验证方面,我可以相对地告诉你,‘这些都是名义上的,’或者,‘这些真的很有风险,你应该仔细看看,可能会做一些实验,把东西稍微移动一下。“但我不知道它有多糟糕,所以我不能说,‘你可以在它完成之前使用它50次,’或者,‘你可以很好地使用10年,你不必担心它。’”

人工智能的影响
热诱导应力可能造成严重破坏的另一个领域是包含AI/ML引擎的设计,这些引擎可能在其生命周期的大部分时间内以最大速度运行。

微软首席营销官史蒂夫•罗迪(Steve Roddy)表示:“有些系统人们希望运行得越快越好,而另一些系统则希望永远持续下去,所以他们会慢慢放慢速度。Quadric.io.“拥有这些大型机器学习芯片的其他影响也是如此——电气完整性、电压开关和电压下降。如果我想制造一块便宜的硅,我就会故意减慢我的NPU。我要把时间错开。我不想把边上的东西都换了。我想要一个故意坏的时钟树(巧妙设计),这样我就不能有大的金属板堆叠在第8层,第9层和第10层上,以防止电压下降,诸如此类的事情。每个芯片设计师都在考虑性能点、寿命、峰值与平均计算能力等方面有很多特殊之处。这取决于具体情况。”

罗迪把热应力分为两类。“有一些短暂的问题,比如手机正在做一件事,然后你就切换到支持人工智能的摄像头。突然之间,你的NPU就开始运转了散景效果,美化你的脸,让你看起来年轻20岁,让你有一头浓密的头发,或者其他什么,这样你就可以拍出完美的自拍。手机和笔记本电脑可能是你拥有真正强大的机器学习核心和通用神经处理器IP (gpnpu)的唯一两个类别,它们并不总是在运行。在其他情况下,你通常会设计系统让NPU持续工作,这样就不会出现瞬态热变化。”

例如,制造手机的工程团队习惯于在GPU启动玩游戏之前将其保持低温和低功耗,这会导致活动产生热峰值。设计团队应该对这些临时高峰的功耗进行热包络管理。

罗迪说:“但如果是你门廊上的智能安全摄像头,用来寻找偷东西的门廊海盗,它就会一直运行。”“如果你一直在运行非常热的东西,使用非常热的大型英伟达GPU,你就会因为热退化而存在寿命问题,所以寿命就会缩短。”

另一方面,如果它是一个应用程序,比如数据中心的Nvidia GPU卡,它可能每两年就要更换一次。“下一个芯片将会出现,以每兆瓦的有效工作为基础,你会想要摆脱已经使用了三年的GPU芯片,因为它在相同的功耗预算下所做的工作是新芯片的五分之一。然而,如果它在你的车里,你希望你的车能使用三年以上,所以人们会在一个不那么关键的温度下运行长寿命产品的连接温度。如果它是一个进行比特币数据挖掘的GPU,你不会在乎它是否在六个月的死亡边缘,因为无论如何你都会把它扔掉。”

热设计
另一个大问题是如何在设计时考虑到所有这些因素。

弗格森说,这与将工作向左转移的一般哲学是一致的。他说:“越早越好。”“看看那里有什么。调整。再加一些。再来一轮,再来一轮,再来一轮。你必须坚持每一步。一旦你解决了一些问题,看看还剩下什么。我不知道还有什么更好的办法了。这是一个迭代的过程。 You could make it an automated iterative process, but it’s still iteration in the end.”

可见性的一个关键方面是在设计阶段尽早使用模型,以考虑热诱导的应力。Synopsys的艾特肯说,模拟热诱发应力最简单的方法是在宏观层面上,你可以说,“考虑到我们所知道的影响——BTI、HCI(热载流子注入)、时间依赖性介电击穿(TDDB)等等,我们可以模拟这些是如何受电压和温度的影响的。”然后我们可以生成一个修改后的库,可以解释所有这些,现在商业工具可以做到这一点。”

当今工具的另一个关键功能是将工作负载组件添加到计划中。艾特肯说:“你现在真的必须这么做,因为你会看到这种奇怪的行为。”“很多这些影响都有所谓的治疗特性。如果你运行它一段时间,然后你停止运行它,你将无法解释老化。你不希望超额利润,因为设备永远不会发货。”

热模型对早期分析至关重要
热模型很复杂,但它们对于芯片和系统架构师进行早期热分析至关重要。

西门子的Ferguson表示,热模型在包装过程中已经存在了很长一段时间。“模具中的热模型?”其实没那么多。我们现在把多个模具放入这些包装中,为了弄清楚热问题,你需要真正了解模具本身。你不能把它当成一个单一的,统一的物体。它不是。这里有密集的金属化区。也有不那么密集的地区。玻璃和金属有非常不同的性质。应力性质和热性质,以及硅本身,当它们被放入这个系统时,都会有不同的行为。 This means it is a more system-level approach, and to get it accurate, you’ve got to have a certain level of detail.”

Joseph Davis, Calibre接口和mPower产品管理高级总监西门子数字工业软件他解释说,理解这些效果对于高端设计至关重要,特别是在移动领域。“手机的关键在于外形和电池寿命。电池寿命是关于减少总功率。然后你得到了3D,但是是一个非常小的包。它必须尽可能地精简。在以前,你只是把它放在一块板上,你不关心硅有多大。现在,外形因素起了很大作用。比如没有包裹就会死,有包裹就会死,他们必须把包裹减薄这样他们就可以把三个包裹叠在一起。随着这种变薄,你无法通过所有的质量来放松压力。”

金属变薄会影响热对模具的作用。热量更强烈,而用来散失热量的质量更少。这导致了各种难以发现的问题,比如无声数据错误的原因或设备关闭的原因

“这是热量的问题吗?这是缺陷吗?它是所有以上的东西吗?这很难知道,因为必须用EUV和紫外线打印东西的副作用是,你无法用显微镜看到它们,”Arm的艾特肯说。“你必须用紫外线或电子或其他东西撞击它才能看到它。关于检查工具有很多问题。它们很贵。它们使用起来很复杂。他们不一定能找到你想要的东西。你最终会得到一个街灯效应,如果我能准确地预测故障机制是什么,我就知道它在哪里,然后我就可以去寻找它,并说,‘是的,我发现了这个。“但如果你不太确定失败机制是什么,那么即使你去寻找它,也有可能找不到。 There’s also a chance that you actually may destroy the part of the chip that had the failure mechanism on the way to finding what you were trying to find. The challenge is that it’s really hard to find them. You wind up having to get a behavior signature out of the chip to say, ‘It exhibits this behavior signature. The theory of this particular failure mechanism matches the observed behavior. Therefore, it’s probably that.’”

在高电压和不同温度下重复测试也是一种艺术。艾特肯说:“最难追踪的问题是,你可以看到它在某种长时间的操作中失败,但你不能因为这样或那样的原因让它在经典的扫描测试中失败。”“这使得诊断变得更加困难。模拟工具可以帮助你做到这一点,但它们并不是魔法。”

弗格森同意了。“与热相关的老化问题最大的挑战之一是,如果你没有事先做任何级别的分析,就很难追踪它们。突然,你可能会遇到一些问题,你知道它正在测试台上工作。或者你把它寄给客户,三个月后你会收到一大堆退货,因为他们都失败了。这是一个大问题,他们花了很多时间来弄清楚,‘我发现了什么是行不通的。为什么它不工作?“你不会想呆在那个地方的。我们已经看到客户处于这种情况,所以我们要做的第一件事就是帮助他们找出这些故障可能发生的位置,以便在构建之前进行更改。此外,今天还没有做很多,但已经开始了,很早就开始研究制造阶段,包括模具级制造和装配级制造。当你有多个模具的时候,很多时候会有C4碰撞之类的,当你把化合物放在一起的时候,它们会经历不同程度的加热。 They grow and shrink at different rates. So all of a sudden in your design, all the balls may be lined up to the pins, but the balls can grow faster than the die did, and now they’re shifted out and don’t line up, so you don’t have a connection. You have to catch this stuff. You have to know about that.”

结论
在高级节点和高级封装中,压力是最大的挑战之一,需要在设计周期的早期处理。

Cadence公司的Roshandell说:“热应力会对结构的强度和稳定性产生重大影响,可能会导致某些部件出现裂缝或断裂。”“这种故障会危及电子设备的整体可靠性,可能会导致削弱和变形,最终导致损坏。设计团队可以通过进行早期设计分析来降低风险,从而帮助避免压力问题。”

这种压力可以以多种方式表现出来,从衰老到变形。Ansys的Chang说:“例如,在《热芯片2021》中提到的最新的采用SOIC技术的AMD 3D-IC设计中,结构硅被用来平衡设计的结构完整性。”“应力/翘曲模拟也应在带出前进行,以确保最大翘曲/应力不超过铸造厂的指导方针。”



留下回复


(注:此名称将公开显示)

Baidu