中文 英语

防止芯片在测试过程中燃烧

规模化、封装和对可靠性的更高要求为芯片测试带来了新的挑战。

受欢迎程度

管理IC测试过程中产生的热量变得越来越困难。

如果没有适当的缓解措施,很容易产生如此多的热量,以至于探测卡和芯片实际上可以烧毁。因此,实现温度管理技术正在成为IC测试的关键部分。

“我们谈论系统,说系统是好的,”Arun Krishnamoorthy,高级首席工程师英特尔他在MEPTEC“太热而不能测试”会议上的一次演讲中说。“但当涉及到测试人员时,我们遇到了问题。测试功率可为规定功率的2 ~ 10倍。”

降低温度的方法有很多,但大多数都增加了测试成本。我们的目标是提高产量,同时通过以最小化成本的方式管理测试和温度来防止泄漏。不过,如果能提高一点点产量,一些额外的成本就会得到回报。

这个问题不仅仅局限于高温。反馈回路可以将温度问题转化为电源问题,因为电流增加并驱动瞬态需求,电源可能无法跟上。电压下降因此成为一个必然的问题。


图1:随着时间的推移,热量和功率问题最终产生于功率密度的增加。来源:英特尔

这给测试工程师和管理人员带来了挑战,他们通常处于必须为商业生产完成的任务链的最后。压力很大,不仅要完成测试程序,还要确保这些测试是完整的,它们可以保护产品,并且解决方案满足成本限制——这意味着测试时间要尽可能短。

这些要求并不一定是一致的,因为一些控制热量的方法需要更长的测试时间。如果在项目的早期设备规划阶段还没有制定出测试策略,在工程师们弄清如何控制热量时,可能会出现令人不快的意外。这将成为一个关键的考虑测试大型片上系统(soc)和其他大型模具。

测试流程不同于系统操作
设计人员进行谨慎的选择,以确保运行中的设备不超过热设计预算。但是测试插入和向量生成传统上不会做出相同的选择。事实上,测试电路通常会绕过功率缓解,这样测试就可以更直接、更有效地进行。此外,由于测试可能包括快速爆发的强烈活动,芯片中的任何热控制回路可能都没有时间做出反应。这会导致芯片局部过热。

Krishnamoorthy解释说:“在这个系统中,我们有热管理、节流和电源管理,使硅保持在功率范围内。””扫描测试因为与系统基准测试相比,我们的测试模式非常短。”

最终,这是一个与设备在焊接到系统中后如何操作与测试如何操作之间的差异有关的问题。多核系统就是一个明显的例子。

Krishnamoorthy说:“为了提高测试效率,我们通常会同步运行核心。“但这不会发生在系统上,因为核心和线程几乎是异步的,而且能力是临时分布的。”由此产生的功率比正常操作产生的功率大得多。


图2:测试过程中芯片的整体功率分布。在循环的早期,初始化步骤会产生适度的热量。随后的IP测试具有高爆发的活动,并且产生的热点在芯片周围以不同的测试序列移动。来源:英特尔

此外,器件以散热的方式组装在电路板上。Krishnamoorthy说:“在这个系统上,有一个坚固的热界面。“你放入一种柔韧的或半永久的TIM(热接口材料),在主板上几乎是平坦的表面,没有翘曲,并且可以正确地拧上。”相比之下,在测试器中,触点被优化为重复使用,磨损最小,并且系统内芯片将享受的热缓解不会到位。

因此,芯片不仅会产生更多的热量,而且散热的能力也会降低。对于晶圆分选的裸模来说尤其如此。“裸模的热质量很低,”Krishnamoorthy解释道。”其TJ(硅结的温度)上升太快,热处理人员无法做出反应。”对于单晶片来说更是如此,因为它们没有剩余的晶圆片来带走热量,而且在晶片背面和任何夹头之间可能有物质。

另一方面,包装好的部件可能会更好。Krishnamoorthy继续说道:“有盖部件具有巨大的热质量,具有非常好的热容来减少瞬态。”“但是热控制设备太迟钝了。在硅内部,温度在10毫秒内上升。等到热控制设备发现时,已经太晚了。”

除了设备反应缓慢外,温度升高也可能发现得太晚。Teradyne SoC事业部经理Ken Lanier在MEPTEC的另一场演讲中警告说:“热质量实际上是正在发生的事情的滞后指标。

热密集型测试主要是数组测试,包括内存测试built-in-self-test(MBiST)及维修作业;扫描测试,特别是在高速运行时;以及其他功能测试,包括基于结构的功能测试和移植的系统测试,其中在系统中发现有问题的代码片段被移植回测试程序。

其中许多测试不仅用于通过/失败,还用于装箱。过高的热量会扭曲芯片在高速运行时的性能,可能会导致良好的模具被丢弃,或者可能会导致价值更高的模具被丢弃。相反,切换到低功耗模式可能会夸大速度并导致脱机。

如果在晶圆分拣时温度过高,晶片和探针卡都可能烧坏。没有人愿意把可能是好模具的东西烧掉就扔掉。

“特别是使用人工智能功能和一些高性能芯片时,它们需要大量电力,”中兴通讯产品营销总监Alan Liao表示形状因子.“因此,与以前的芯片相比,功率图中的电流增加了一倍或三倍。你的探测器能承受这么大的电流吗,还是会把它熔化?在高级节点,间距更小,探头中的驱动器更薄。所以基本上没有足够的物质来处理这些电流。”

对于这些设备,损坏的探测卡可能会很昂贵。“如果探测卡没有了,那么很容易就会损失5万到10万美元。而且这条线路也有停机时间,”Krishnamoorthy说。


图3:由于过热而烧焦的探针卡和硅。来源:英特尔

热量很难测量和控制
自动温度控制(ATC)设备旨在帮助将芯片保持在合适的温度范围内。它使用冷热液体来根据需要提高或降低设置的温度。挑战在于让设备反应足够快。这是一个相对较长的控制循环,从确定模具太热到看到ATC的温度响应。


图4:自动温度控制设备可帮助冷却过多的热量。来源:效果显著

拉尼尔说:“你确实有延迟的问题。“当你监测(温度),将信息传递给空中交通管制系统,然后空中交通管制系统决定如何处理它,经历自己的热延迟,你需要的有点晚了。问题是,虽然(这些方法)是自适应的,但它们无法预测。”

第一个挑战是确定温度。该包提供了一个滞后指示器。当它变得太热时,任何温度控制都可能为时已晚,无法帮助封闭的容器死亡。

一种简单的方法涉及热二极管。“任何这样做的人在他们的设备周围都有多个二极管,他们会在运行中切换到不同的二极管。效果显著在他的MEPTEC演讲中。


图5:在功率信息可反馈的情况下,功率跟踪是可能的,但这仍然是一个很长的控制循环。来源:效果显著

一种比较有前途的方法是使用模上传感器或监控器,以便将任何问题传达给测试装置以减轻影响。这方面最大的障碍似乎是如何提供数据的一致性。有许多可用的传感器,但它们的通信方式都不同,因此很难以一致的方式处理。

Lanier指出proteanTecs是一种特别有前途的监测装置。“它的美妙之处在于它有一个控制器,这个控制器为你提供了一个与外部世界的通用接口,”他说。

proteanTecs正在扩展对此接口的访问。proteanTecs产品营销副总裁Shai Eisen指出:“我们的UCT(通用芯片遥测)架构和分析平台可以集成第三方传感器数据,以实现全面的监测解决方案。

考虑到适当的相关性,这使得预测温度何时可能上升的能力成为可能,从而为ATC和其他缓解措施发挥作用提供了额外的时间。这些相关性必须在初始描述过程中建立。

Eisen说:“归根结底,要能够准确地描述芯片生命周期中不同阶段不同环境和功能不匹配的影响,这体现在晶圆排序、最终测试、系统测试和现场功能性能中。”

proteanTecs联合创始人兼硅技术高级首席工程师Eyal Fayneh补充说:“我们可以将性能下降与芯片上的特定环境或操作影响联系起来,比如温度激增或电源问题。”

测试程序还可以发送早期指标,表明已知会产生热量的序列将很快开始,使ATC领先一步。阿姆斯特朗说:“它可以让我告诉热力系统提前冷却。”


图6:预触发功率可以使控制回路在冷却时提前启动,以预期更高的活动。来源:效果显著

如果测试人员同时在多个芯片上运行测试,即所谓的多站点测试,那么这种和其他此类缓解必须以影响一个芯片而不抛出另一个芯片的方式进行。对于动态测试流程来说,这可能是一个特别的挑战,其中每个芯片可能经历略微不同的流程,因此它们不一定步调一致。

保持权力在它该在的地方
突然爆发的测试的影响可能不仅仅是事情变得太热。它们也给电力供应带来了比系统内更大的负担。可能有多个这样的电源,一些专用于芯片内部的不同核心。

“在扫描测试期间,高覆盖率的测试矢量可以驱动大量的芯片活动,通常会导致大量的电源电流消耗,”Dennis Ciplickas说PDF的解决方案.“当前的绘制可以产生足够大的IR下降,从而发生意外的切换,导致扫描测试失败,这是在实际使用中不太可能发生的故障。”

这种灵敏度使得电压传感尽可能准确变得至关重要,这意味着要测量它供电的核心芯片上的电压。如果测量距离源更远,就会得到不准确的读数,使得供给方更难按需做出反应。


图7:电压应在模具上感应,以获得最大的精度。来源:效果显著

虽然电源连接可能在相同的电压下运行,但最有效的方法是将它们保持在不同的平面上,直到它们到达模具,在那一点上合并它们。否则,“如果触点有问题,电流就会流过仍然存在的触点,”Advantest的Armstrong观察到。“你本可以电迁移除了炸了你的部分。”


图8:在不同的平面上保留不同的功率信号,只在芯片上合并是最有效的。来源:效果显著

电力线上的电容器很重要,因为当电感限制电流时,电容器就会介入。但是电容必须“刚刚好”——这是测试工程师必须与测试供应商携手合作的事情。阿姆斯特朗说:“太少不好,太多可能更糟。”

散装电容器使用在离电源更近的地方。钽电容器在这里工作得很好,因为它们可以忍受很宽的温度范围-只要你不期望负功率峰值。“陶瓷电容器有一些非常严重的温度问题,”阿姆斯特朗说。由于批量帽是低频滤波器,其较低的高频等效串联电阻(ESR)不是问题。

在设备附近也需要高频帽。高质量的陶瓷瓶盖在这里工作得很好,因为它们的ESR低。

权力如何参与也会产生影响。阿姆斯特朗说:“你不希望同时把所有电源从0到1伏提高到一起,因为你可能会有核对核的短路。”“你也可能会有一个供应增长得比另一个快,这可能会导致电流从一个核心流向另一个核心,而你不知道。”最好的办法是慢慢通电,然后观察会发生什么,控制涌流。

速效夹子也有助于防止损坏,甚至可能防止热失控。在多站点设置中,如果一个夹具折叠,“你要确保不会将所有的材料都折叠到另一个测试站点,”Armstrong指出。


图9:避免烧模和探针涉及几个步骤,包括涌流控制、快速夹紧、精心计划的折叠和最终的电容放电。来源:效果显著

攻击源:DFT和测试程序
最终,测试是产生热量的根源,因为它们不像“任务模式”那样使用芯片。但是缓解措施必须与测试时间相权衡。

Ciplickas指出:“可以采用不同的测试序列,减少有问题的、不切实际的芯片活动,避免潜在的IR下降或其他信号完整性问题。”“然而,代价通常是运行测试程序的时间增加,而更多的测试时间不是产品工程师通常可以获得的商品。”


图10:降低测试和操作功耗的技术包括最小化扫描链的电压域交叉,平衡低功耗约束与链优化,以及在正常操作期间保持测试逻辑安静。来源:Synopsys对此

当运行矢量时,扫描进和扫描出不是问题,因为它们是在低频率下完成的。Krishnamoorthy说:“捕获会杀死你,因为这是一到两个时钟周期。”“你将以最高的千兆赫运行。”

例如,可以对核心进行连续测试。对于四核芯片来说,这将使核心测试时间延长四倍,同时还能降低温度。中间的方法可能是计算出可以并行可靠测试的最大数量,并使用尽可能少的通道。挑战在于,目前还没有自动化的方法来做到这一点。

还可以重新排序测试或插入用于冷却部件的模式(“嗜睡”模式)并分发热点。同样,这些都很难手动完成,而且没有自动化。

模上监控器可以帮助在新设备引入期间测试开发。它们可以确定单个模具在性能分布中的位置。将热量与矢量相关联,允许测试开发人员为不同的模具生成替代矢量系列。

Eisen说:“通过使用基于单位的粒度对设备的材料配置进行分类,您可以为特定的单位选择最佳的ATPG模式序列。”这种自适应测试可以通过不同的流程运行不同的模具来控制热量。在热量不是问题的情况下,可以更快地运行测试以优化测试时间。

一些DFT电路改进的重点是减少在测试操作的不同部分切换的信号数量。这些包括:

  • 在扫描过程中阻止扫描数据到达功能逻辑。该公司首席工程师Adam Cron表示:“这将自动加入门控逻辑,因此在换挡时,我们不会激活功能逻辑。Synopsys对此,在MEPTEC的另一场演讲中。
  • 在移动压缩数据时阻塞扫描链。Cron补充说:“这通常用于压缩逻辑,在这种情况下,你无法直接访问进入扫描链的数据。”
  • 暂停逻辑BiST (LBiST)块中的线性反馈移位寄存器(LFSR),以防止它在不需要时切换。“你已经让LFSR为你生成数据,所以你需要一些方法来减少轮班期间的切换活动,”他说。
  • 在并行运行捕获和更新的同时,在不同的块中连续移动。


图11:所谓的“q门控”可以阻止扫描数据执行功能逻辑,降低开关功率。来源:Synopsys对此

Cron指出了AMD能够补救的一个情况。它的载体运行太快(100兆赫),产生了太多的热量,影响了产量。“简单”的解决方法是减慢时钟速度,但这会延长测试的时间。相反,AMD只对最关键的向量将时钟减慢到62.5 MHz。然后它将时钟调高到125兆赫,用于剩余的矢量,弥补损失的时间。

其他缓解时钟的方法也有帮助。Cron说:“如果你有一个芯片,它有多个换班时钟,你可能会对错它们,这样所有时钟的边缘就不会对齐。”“出于同样的原因,你可能会在移位时错对齐捕获边。”如果测试数据是通过高速传输的并行转换器接口,那么就有机会从降序时钟中选择不同的相位,以使边缘不对齐。

类似地,LBiST换挡可以缓慢启动,在逐渐减速之前加速到全速。升压和降压的目的是给电源时间来响应变化的负荷。


图12:在LBIST前后提高和降低频率有助于电源跟上增加的需求。来源:Synopsys对此

Lanier特别提到了西门子去年宣布的DFT扫描总线。它将许多DFT运动部件彼此解耦。“现在你可以编程IP块从总线上取下多少数据,取下数据的速度有多快,诸如此类,”他说。“所以这里有很多把手,将设备外部的操作与内部的操作断开。”

这涉及到跟踪很多细节。Tessent的产品营销总监Geir Eide说:“这很复杂,但事实上,扫描数据是如此结构化,数千种模式有完全相同的位数,这意味着你可以利用网络的优势来做簿记。西门子EDA


图13:西门子的Tessent扫描总线将不同IP块的数据需求和速率解耦。来源:西门子

找到正确的平衡
许多减少多余测试热量的机会涉及设备成本或更长时间的测试。那么问题就变成了如何在必要的改进和这些成本之间取得平衡。这就涉及到ROI计算。

进行计算的最佳时间是在设计过程的早期。让测试工程师参与早期的楼层规划阶段,可以帮助确定哪些测试将是一个挑战。然后可以早期评估不同解决方案的ROI。如果在处理器中的芯片过热之前没有解决这些问题,那么可能的解决方案的范围就会非常有限。

在架构师和设计人员开发他们的策略时开发一个测试策略,这将为在不增加产品成本负担的情况下减少测试热度提供最大的机会。但最终,一切都是关于做出正确的权衡。

Ciplickas说:“在设备的总体测试时间和让设备进行一系列不太可能导致不切实际的故障的测试之间总是必须保持平衡,或者更糟糕的是,让设备承受压力,可能导致早期寿命故障。”



1评论

理查德Trauben 说:

核心问题是你在尝试测量任务模式之外的东西。功率和温度与功能无关。你需要放慢测试速度并复制应用程序的热、功率完整性或你观察到的并不是用户将看到的。除了烧掉它们之外,你还通过使它们处于超出规格的条件下而筛选出了其他好的部分。我相信,在系统分布式自测中,经济上是有利的,因此,单个高成本测试器的瓶颈应该只关注是否将裸模芯片(具有较低速度的核心功能测试)和二次更全面的速度、热和功能测试集打包在现实环境中,而不是假设可以由测试器来实现。

留下回复


(注:此名称将公开显示)

Baidu