中文 英语

芯片热损伤扩大

热问题在高级节点上重新浮出水面,提出了半导体随着时间的推移在各种应用中的表现如何的问题。

受欢迎程度

对于半导体和系统设计来说,热量正成为一个更大的问题,这是由于密度更高以及汽车等市场越来越多地使用复杂芯片造成的,在汽车市场,可靠性是以十年的增量来衡量的。

在过去,热量通常是由机械工程师来处理的,他们会想出在哪里放置散热器、风扇或将热量从底盘中排出的孔。但是随着更多的功能被添加到PCB或SoC中,在硅层面上,热量正成为一个更加重要的考虑因素——一个难以预测、管理和忽视的风险。

可靠性工程服务公司DfR Solutions的高级技术人员格雷格·卡斯维尔(Greg Caswell)说:“散热一直是一个问题,但随着芯片、电路板和外壳变得越来越小,这个问题变得越来越严重。”他指出,这个问题在过去一年中明显恶化。“我们发现焊料疲劳,镀孔疲劳,零件混合了不同的膨胀系数。如果它需要填充物,这个填充物不一定与其他部分匹配。大约有700种层压板需要跟踪,它都可以根据板材料的类型而改变。人们说他们用的是FR-4板,但有400种材料被归类为FR-4。在10年的时间里,你开始发现每天的压力,冲击和振动问题,奇怪的温度变化,以及许多不同的电压水平。所有这些都将影响产品的生存能力。”

生存是一个相对的词。由于汽车、航空航天、医疗、工业等终端市场对扩展可靠性的需求,许多设计现在必须在比过去更长的时间内保持完整的功能。即使是汽车信息娱乐系统中的芯片也需要使用10到15年,因为可能会与安全关键系统相互作用。

“在移动设备中,典型的活跃寿命是5000小时,”该公司营销副总裁罗恩·摩尔(Ron Moore)说手臂的物理IP部门。“对于一台服务器来说,需要10万个小时。你需要做更多的电磁分析,更多的人字拖分析。因此,物理IP会根据物理需求而变化。”

对于半导体工程师来说,这并不是一个新的讨论话题。2001年,帕特·盖尔辛格英特尔微软的首席技术官预测,如果不采取任何措施,十年内芯片的能量密度将相当于太阳表面的能量密度。解决方案以多核、暗硅方法、新材料和许多非常好的工程和设计技术的形式出现。但这个问题从未消失,而且在年又卷土重来finFET特别是在接下来的几个工艺节点上,这迫使公司考虑2.5D和扇出包装,新的架构和微架构,并提出了关于即使稍微高一些的温度的长期影响的问题。

公司产品工程和支持副总裁Aveek Sarkar表示:“热能增加了一大堆未知因素有限元分析软件.“你需要在芯片封装和系统层面、芯片层面或互连层面评估热影响,如果是finFET,你必须处理局部加热。在10nm和7nm时,情况会变得更糟。你必须预测电力会发生什么,然后为不同的电力场景创建温度分布图。”

例如,与电压下降峰值相比,温度是相对稳定的状态。这使得有效地处理它具有欺骗性。结合硅的导热特性,热量应该从芯片内部和外部散发出去,这似乎是合乎逻辑的。但在一个密集的SoC中,并不是所有的热量都能逸出。无论哪个通道被阻塞,它都可能使组件过热,有时完全在芯片的另一侧。

FloTherm和FloVent的营销经理Robin Bornoff说:“现在的变化是,你需要考虑更接近硅的热管理导师图形.“如果你看看汽车上的信息娱乐系统,环境是相当极端的。仪表盘里有热量,热量很难离开。冷却通道不多。这会导致IGBT经历剧变,使其在某些驾驶剖面下变得不可靠。它也会对数字显示器产生影响,亮度或颜色会发生变化。我们说的是大的温度梯度。对于处理大量功率的键合线,存在键合线故障的热机械风险。”

预测问题
弄清楚何时何地会出现热问题需要结合工具、历史和适当的运气。

“一切看起来都很好,但在模拟35秒后,你会发现一个电源问题,正在产生热问题,”Alan Gibbons说Synopsys对此.“你需要一个非常精确的模型,其中包含更多关于正在发生的事情的细节。但是你不希望整个35秒都运行它。所以你可以换一个更精确的功能模型,找到电源热点,然后退出,继续前进。”

然而,事情并不总是那么顺利。吉本斯说:“你可能会发现核心的热问题,原因是软件任务在错误的进程上,或者本应该在硬件上完成的事情在软件上完成了。”“这对EDA社区来说是一个巨大的挑战。我们通常从功率和性能的角度考虑可靠性,但它可能受到功率密度的影响。如果你的处理器运行在2到3千兆赫,它们会消耗大量的能量。热方面的考虑变得更加尖锐。”

这在高级节点上变得更加成问题,因为利润会消耗电力和/或性能。由于缓冲较少,设计需要更加精确。但soc的目标之一是在给定的空间中安装更多的功能,因此在使用模型方面有更多的变量。

“建模和仿真场景是不同的,”Ansys的Sarkar说。“你必须了解一个功能在什么条件下运行。你必须把它放在整个芯片的环境中。所以芯片可能显示80°C,但它不再是均匀的,所以你必须重新计算温度分布的功率。ARM块可能是85°,指令缓存可能是75°。计算温度是温度与功率之间的迭代过程。一旦你得到了温度剖面,那么你必须根据芯片的寿命来判断它是过于悲观还是过于乐观。如果你看看铸造厂的电迁移规则,他们说如果你遵守规则,你就能得到10年的寿命,这些规则有一定的温度。如果温度从110°上升到125°,芯片将更快地失效。”

但由于模具的温度不均匀,计算对可靠性的影响要困难得多。

所有主要的EDA公司现在都在研究这个问题。“传统上,分析工具专注于包装温度,”CT Kao说,产品工程架构师节奏.“但使用10nm的finFET,就没有从PCB到晶体管所需的粒度。我们需要的是物理分析模拟。在芯片层面,我们可以在芯片内部解析位置和路径,并将其与热结合起来。所以我们在这个方向上有粒度,但不是直接针对PCB。”

很难确定的是,不同的工程师在不同的时间需要什么,即使是同样的设计。有些需要对晶体管或晶体管组进行详细的热分析,而另一些只需要系统级的分析。高锟说:“所有这些都必须与实验和良好的工程判断相结合。”“如果晶体管彼此相邻,你不一定需要知道单个晶体管的温度,但你确实需要知道芯片在不同功能要求下的表现,以及它们随着时间的推移有多热。”

解决方案
finfet提供了16/14纳米泄漏电流的喘息机会,自65纳米以来,泄漏电流越来越难以管理。但问题又开始出现了,从10nm开始,这就导致了热量的上升。

“泄漏并没有消失,半导体物理也没有改变。超音速.“对于一个节点来说,它已经变得不那么重要了。我们现在看到的是更多地强调电源管理的时钟控制。但现实是,很大一部分能量仍然存在于时钟树中。另一个挑战是动态电源管理。没有自动化,所以你需要在微架构(如果不是架构级别的话)上工作。”

所有这些都对热量有直接影响。处于“开”状态的东西越多,开着的时间越长,它们产生的热量就越多,热效应也就越大。温嘉德说,一个解决方案是更好的时钟控制,因为时钟可以在一个时钟周期内关闭和启动,这非常快。“你可以分组安排电源管理,这样你就可以按顺序打开它们。你也可以先打开较小的开关,这样涌流就会分散在较长的时间内。然后当你打开胖胖的晶体管时,电阻就会降低。”

高级封装是另一种选择,随着高带宽内存解决方案开始进入市场,它在过去一年中获得了更多的关注。但还有更多的选择,包括如何将单个模具包装在一起。

“关键问题之一是散热,”Tessera Invensas业务部门总裁克雷格·米切尔(Craig Mitchell)说。“这取决于模具的厚度。如果你减少厚度,就可以减少将更多热量拉出的阻力。”

Tessera已经开始开发一种不同的DRAM堆叠方式,就像砖块交错一样,使芯片错开,这样在每个堆栈上都有一部分DRAM是开放的。这种方法允许更多的冷却,更短的互连和更快的内存访问。

在存储器方面,Kilopass等公司一直在研究一次性可编程存储器,因为它耐热,可以替代其他类型的非易失性存储器。“与嵌入式闪存不同,OTP能很好地应对极端高温,”徐仁泰说,Kilopass工程副总裁。“它们都能在零下40摄氏度的低温下生存。但是OTP可以在125摄氏度下工作,而嵌入式闪存通常只能支持85摄氏度左右。由于汽车内的机械区域会达到极端温度,并且需要不会失效的内存,OTP是更好的选择。”

在消除这一问题上也有很大的努力。Mentor的Bornoff说,他们已经对诸如热能等新领域进行了研究在矽通过它们的作用就像包裹里的烟囱。“挑战在于,如果你遇到任何瓶颈,它会一直备份到热源。解决这个问题的最好办法是将热量传递到热源附近。热通孔的使用已经很成熟,但专用的热tsv是一个积极研究的领域。我们仍然需要了解需要多少,以及这些因素如何影响设计。但它可能会对设计的其余部分产生巨大影响。”

Bornoff说,蚀刻在模具底部的液体通道是另一个积极研究的领域。新的热界面材料也是如此。“我们看到新的产品开始发挥作用,它们使用悬浮在基板中的小部分金属。材料科学在这里有所帮助。我们可以根据材料的厚度和不同的性质来进行热模拟。温度始终是失效机制的一个很好的领先指标。”

其他问题
热还有其他的影响,在半导体界刚刚开始被理解,因为它跨越了深度物理学的世界。

另一家可靠性工程服务公司iROC Technologies的总裁兼总经理Olivier Lauzeral说:“高温和高压的一个强烈影响是闩锁风险的增加,这是一个严重的可靠性问题。”“温度的另一个影响是房间内热中子的实际通量。这些中子与硅中的硼10掺杂剂相互作用产生α粒子和锂离子。热中子与硼10的横截面(或相互作用的概率)变化为1/√E, E为中子能量,与温度正相关(因此称为热中子)。所以温度越高,它们的能量就越高,与^10B相互作用的概率就越低,α或锂离子的通量就越低。”

DfR Solutions的高级技术人员Edward Wyrwas表示,在过去的一年里,闪存中的比特滑落和数据保留问题也要归咎于Heat。“我们也看到了对栅极氧化物完整性的影响,我们还看到了更多负偏置温度不稳定性(NBTI)。随着显卡等组件开始进行更多的批判性思考,我们开始使用更多的内存和fpga,温度将会更高。”

随着“万物互联”的启动,这些问题可能会变得更加复杂,因为许多设备需要一直处于开机状态,而且随着系统中添加的功能越来越多,这些功能可能会受到不同使用模式的影响。两者都能影响热量。

ARM的Moore说:“这里需要的是你设计芯片,让它们完成一定的工作量。”“所以你在分析一组工作流程的可靠性时,也在进行预测。也许这个应用程序将驱动接近过载电压。这更多的是一个实现问题,但这是一个日益增长的趋势。执行变得越来越重要,它会影响到你的利润率。”

最重要的是,热问题越来越多地成为设计的一部分,需要与电源、材料、架构、工艺和包装独立或结合起来考虑。从积极的方面来看,这确实为未来几年提供了一些非常有趣的多物理工程问题。

有关的故事
随着时间的推移,可靠性会增加风险
可靠性定义正在改变



1评论

戴夫Duchesneau 说:

我认为其中一项陈述有出入。iROC总裁兼总经理Olivier Lauzeral表示:“高温与高压相结合的一个强烈影响是闩锁的风险增加……”

第一个陈述告诉我,高温会增加锁住的风险,这是有道理的。

劳泽拉尔先生接着说:“温度的另一个影响是热中子的实际通量……与硅中的硼10掺杂剂相互作用,产生α粒子和锂离子。热中子与硼10的横截面(或相互作用的概率)变化为1/√E……因此温度越高,它们的能量越高,与硼10相互作用的概率越低,α或锂离子的通量就越低。”

第二种说法告诉我,较高的温度会降低锁死的风险,因为两者之间的关系呈负变化(1/√E),这对我来说没有意义。不可否认,我在这里有点不自量力,但直觉上我认为,增加能量会增加α离子的通量,这将进一步增加锁定的风险。

评论截止。

Baidu