中文 英语
18lk新利
的意见

如何在不影响产量的情况下将DPPM提高10倍

从标准测试转向深度数据异常值检测。

受欢迎程度

如今的芯片面临巨大压力。随着晶圆和晶圆芯片的单位数节点、高度复杂的设计以及应用和系统集成的影响,电子价值链越来越依赖昂贵的保护带也就不足为奇了。生态系统还没有准备好在测试期间发现所有存在的缺陷。因此,虽然质量逃逸是公认的,但现场的系统维护必须基于冗余,以确保不影响正常运行时间。

为什么会有这么多缺陷渗透进来?
当今最著名的方法(bkm)未能发现“难以检测”的缺陷,这些缺陷虽然通过了标准测试,但一旦部署,最终将导致功能故障。结构测试可以发现许多缺陷,但是有一些非常小的缺陷在整个测试过程中都没有被注意到。这些看似无害的芯片会导致随机的系统故障,导致昂贵的退货,更重要的是,损害制造商的声誉。这需要先进的技术,如异常值检测。

部分平均检验是异常值检测中最常用的方法之一。它基于这样一种概念,即可以在较小的总体上(如晶圆)使用高覆盖测量(如泄漏电流(iDDQ))发现异常值。

每个晶圆iDDQ被绘制出来,测得的iDDQ超过稳健西格玛(+/- 4西格玛)的芯片不合格。部分平均测试的固有局限性是,在先进的工艺节点中,晶圆内部的分布非常宽,可能接近于整个工艺的分布,使得这种方法在寻找异常值时无效。

因此,测试工程师经常会让那些他们不知道应该被标记为拒绝的芯片通过。这是proteanTecs公司新推出的通用芯片遥测技术(Universal Chip Telemetry,简称UCT)解决的众多问题之一。

个位数时代的缺陷检测
幸运的是,深度数据已经达到了一个复杂的水平,可以用来测试芯片参数。深度数据通过芯片遥测技术从内部监测芯片的健康状况和性能。机器学习应用于硅片上数百个芯片中的每个芯片的数百万个监控点,并可以找到它们之间的关系,在时间零点和随着时间的推移。这一次,人们有了增加测量参数数量的动机,而不是将它们减少到可接受的最小集合。

那么,我们如何获得作为分析基础的输入呢?通过精心学习设计和工艺交互,在设计过程中将监控电路嵌入到集成电路中。这些电路很小,只占芯片面积的很小一部分,甚至可以安装到原本可能是空白的地方。这些微型监控器被称为代理ᵀᴹ,它们仔细地监视一组特定的参数。通过大量使用它们,可以发现大量关于芯片内部工作原理的参数,否则可能无法测量,因为它们埋在芯片内部很深,但这对理解缺陷模式和根本原因至关重要。

然后,重要的是将这些大量的信息提炼成对制造商有意义的东西。proteanTecs提出了“家庭”的概念。

家庭分类
机器学习算法使用代理的读数来分析芯片并将其分类为高分辨率集群,具有1σ分布(一个标准偏差)。适合特定家族的芯片可能在所有生产阶段都表现稳定,无论操作条件如何,而那些开始偏离其家族分布的芯片是一个危险信号,表明可能在芯片生命周期的后期出现质量问题。这几乎就像有许多小型生产线,应该是良好的行为。

对于同一家族中的芯片,测量的参数现在一起传递。这些可以包括漏电流,动态功率,延迟,VDDmin等。了解这些关系是解锁大量可用但看似不可见的数据的关键。

当测量的参数与其指定的族不相关时会发生什么?这能告诉我们什么吗?的确如此。如果芯片表现不像它们各自的家族那样,则表明存在小缺陷,应该在测试中剔除。这些异常芯片,或异常值,可能会愉快地通过今天的标准生产测试,但应该被视为“行走的伤员”——一旦投入持续的日常操作,这些芯片很可能会发生故障。

基于家庭的离群值检测
下面的图表给出了一个深度数据异常值检测的例子。在这种情况下,测量到的泄漏电流是根据家族分类绘制的。泄漏电流测量不是用来创建家族,而是用来比较和发现行为不符合预期的芯片。

下面的每个点代表一个或多个筹码。为了清晰起见,在横轴上列出的家族,在这个特定的图表中根据其平均泄漏电流进行排序,以便它们形成一条上升的线。请注意,任何单个垂直列中的所有灰点都表示属于一个Family的单个芯片。同一家族的所有灰芯片的泄漏电流都在总分布的1σ范围内。


红色水平线表示极限,代表当今最著名的测试方法:虚线是上下部分平均测试极限,这是基于部件的正态分布,通常在晶圆级总体上。两条实线,即上限和下限规格限制,代表芯片制造商在芯片规格中保证的级别。

除了一个点外,所有点都在平均测试上限和下限之间。所有这些芯片都将通过使用当今最知名方法进行的标准功能和结构测试。只有超出部分平均测试上限(在Family 18中圈出)的产品才会不合格并被淘汰,即使它在规格范围内。其余的芯片将被认为是通过所有测试的好芯片。

橙色点距离平均值超过1σ——你可以在家族11和家族18中看到两个这样的异常值。Family 18中的一个(下面圈出的)将通过标准功能测试,尽管它有一个小缺陷,导致它的泄漏量相对于它的Family高于预期。无论什么原因导致这个芯片偏离Family 18,都可能在以后导致问题,它应该被取消资格。但是标准的功能和结构测试会让它通过,因为它的泄漏电流在高下限之间,结构测试结果中不会检测到缺陷影响。

由于它是一个异常值,这个芯片试图告诉我们某些东西是不同的,这可能是一个潜在缺陷的警告。但是,请注意,该芯片的泄漏不仅在零件平均测试范围内,而且还低于图表最右侧泄漏最高的芯片的泄漏,这可以通过从橙色点到图表右侧的细黑线看到。从表面上看,这个芯片很好地处于完整或晶圆人口分布。如果我们试图通过降低部件平均测试限制来清除18家族中的异常值,那么我们必然会拒绝右上方的完全功能芯片。

《11号家庭》中的两个异常值更具挑战性。他们被圈在下面。

与Family 18中的离群值一样,上层Family 11的离群值的泄漏电流略低于图表右侧的一些完全健康的芯片,如下图中的细黑线所示。

降低测试极限以捕获顶部离群值也会导致在灰点的右上角拒绝一些良好的芯片。如果零件平均测试限制被收紧以剔除这两个异常值,那么几乎20%的好芯片将不合格。这是一个完全不可接受的解决方案,但是允许异常值通过测试也是不可接受的。

那么,如何在不影响产量的情况下找到异常值呢?
答案是从今天的标准“广泛分布”方法转向更复杂的离群值检测形式,其中芯片被分类为家族,然后可以从这些家族中搜索离群值。结果是大量的产品种群,每一个都不太可能失败,而质量泄漏的风险将被消除。现场测试已经确定,通过转向基于家族的异常值检测,可以将百万分之一的缺陷率(DPPM)降低到现有水平的十分之一,所有这些都不会牺牲优质芯片作为附带损害。

由于这种方法,芯片制造商确切地知道他们在运输什么,并且现场故障的数量将尽可能低。



留下回复


(注:此名称将公开显示)

Baidu