中文 英语

在IC制造中追逐测试逃脱

数据分析可以极大地提高可靠性,但成本权衡是复杂的。

受欢迎程度

在这些设备离开晶片厂之前,通过测试并最终进入现场的坏芯片数量可以大大减少,但开发必要测试和分析数据的成本严重限制了采用。

为集成电路确定一个可接受的测试逃逸指标对于提高芯片制造中的质量比至关重要,但究竟什么被认为是可接受的,在不同的细分市场中差异很大,甚至在同一市场中,也取决于特定的用例或时间框架。随着芯片变得越来越复杂,并成为安全关键型和任务关键型应用的重要组成部分,其目标一直是减少该领域的故障数量,但对质量的强调也已经渗透到其他市场。

在20世纪90年代,质量工程师将台式机和笔记本电脑的缺陷率限制在500‰(DPM)。如果每周生产100万部,电脑系统公司可以很容易地发现逃跑的情况。如今,汽车原始设备制造商对复杂得多的设备提出了10ppm的要求,尽管汽车制造商可能会发现在这个DPM水平上测量逃逸是一项挑战。要找到这些漏洞,需要对数据进行更深入的研究,这反过来又需要在数据管理、数据分析工具以及使这一切正常工作所需的工程工作方面进行投资。

对于每一个减少测试时间的决策,测试内容的考虑,以及对测试逃逸的响应,决定测试内容过程的工程团队必须与在产量/质量/成本三角形中发现的建设性张力作斗争,这是决定测试内容过程所必需的。所有这些的基础是有足够好的数据。

“半导体行业存在一个有趣的问题,通常产量都非常高,这意味着没有那么多的故障数据,”英特尔技术和战略副总裁Keith Schaub说美国效果显著.“那么,当一个模型几乎从未出现过故障时,你如何开发一个模型来检测故障呢?”这是个难题。你必须想出一些有创意的数据盲技术,试着让模型去寻找不同于标准或不寻常的东西。”

这些预测模型用于检测测试逃逸的主要驱动因素是来自客户的反馈。原因是“不寻常”的故障部件在客户系统中可能非常好。如果测试逃脱率下降,对失效部件的良率影响最小,那么新的测试指标就足够好了。

你需要多少数据?
在响应客户退货时,产品、质量和良率工程师重新考虑良率/质量/成本三角形的权衡。质量问题需要解决,如果这意味着一些好的零件被扔掉,质量工程师通常认为这需要是一个可以接受的损失,以使客户满意。

这听起来可能很奇怪,但对质量和产量工程师来说是有意义的。首先,产量是以百分比来衡量的,而质量是以ppm来衡量的。

此外,为了有效地追踪测试漏洞,工程师需要足够的生产量来获得来自最终客户系统的反馈。泄漏越多,工程师确定问题是否存在的生产量就越少。在此基础上,评估一个新测试是否能够充分筛查测试逃逸需要足够的容量。这些数字不一定是相同的。

没有考试是完美的。他们都有可能让一些好的模具或单位失效。这些假阴性通常被称为“过度杀伤”。如果一项新测试的放射性沉降物在百万分之百的范围内,当量工程师不会眨眼。1000ppm可能是产量工程师和质量工程师争论的战线。然而,在应对客户的失败时,质量工程师通常会胜出。如果良率损失过大,那么产品工程师需要研究其他可能的测试,以区分坏部件和好部件。

坏的部分和坏的部分的比率
当你进行测试时,有多少好的部件会被丢弃?只有你费心去看,你才能测量它。

系统测试或参数的工程表征级别仍然是标记真正失败的最终仲裁者。考虑两个涉及假阴性的不同现实场景。第一个方法是测量I/O时间。在比较吃了确定通过/失败部件的定时测量与不良部件的表征,发现存在1个真失败与2个真良好的比率。第二步涉及实现一个异常值检测技术来检测逃逸。逸出量约为百万分之一百。离群值检测技术捕获了逃逸,并且失败了大约是系统级测试测量的两倍。巧合的是,这两个例子的比例都是1比2。对于第二个示例,检测100ppm的客户故障将导致大约300ppm的总故障,其中200ppm为产量损失。

那么你需要多少数据来确定测试极限或预测模型来区分好和坏的部分呢?

“简短而简单的答案是,‘你想做到多准确?’”IEEE高级成员、40年的测试老手杰夫·罗尔说。“如果你能接受10%的误差,你可以在大约30个部分后开始实施基于批量的自适应测试限制。当样品达到300个零件时,精度显著提高(误差约为1%)。”

这些数字假设感兴趣的参数为高斯分布。例如,如果分布是双峰的,这种误差就会改变。

如果工程师有以前的产品历史作为他们测试方法的基础——即总是对该产品进行静态零件平均测试——他们可以接受30,000个单元,其误差约为0.01%。

我们并不总是需要大型数据集去验证新测试屏幕的有效性。如果工程师有来自客户系统的反馈,他们即使对较小的数据集也有信心。不过,需要的是唯一的id。

Advantest America战略业务创造经理Ken Butler强调了大型soc与模拟产品之间的差异。“对于大型soc,几乎总是有一个可用的电子芯片ID (ECID),所以你可以在整个制造过程中跟踪它。对于模拟设备,ecid不太常见,因为它的模具尺寸非常小,而且你无法承受这样的模具面积,”Butler说。“所以对于离群值分析,你通常必须运行开环,这意味着你没有特定的故障芯片可以用作目标来开发离群值屏幕。在这种情况下,你会想要使用尽可能多的晶圆来确定你的筛选参数。但并不是每个IC产品线都有大量可用的材料,所以你可以使用你所拥有的任何材料。值得关注的是,如果您基于多个晶圆批次创建一个屏幕,那么您将在样品中看到足够多的工艺变化的可能性很低。然后,您可能会错过一些缺陷机制,否则您可能会通过更多数据捕获这些缺陷机制。”

因此,挑战在于故障的发生率如此之低,以至于您需要足够的容量才能识别它们的存在。一旦你知道它们的存在,你就可以研究它们,找出它们与好单位的不同之处。在影响客户的测试转义的情况下,故障可能是随机的,这使得确定测试屏幕似乎是不可能的。

确定检测转义的测试
对于100ppm,客户只需要至少30,000个单位的量,尽管300,000个单位让工程师对问题的严重程度更有信心。这提供了足够的信息来进行详细的数据分析,以确定“这些事情中的一个与另一个不同”。

关于如何管理测试逃逸的公开记录案例的数量是非常有限的。这是可以理解的,因为这样的故事暴露了IC供应商和最终客户。但它的价值怎么说都不为过。这些案例提供了离群值检测测试有效的证据,即使工程师找不到物理证据。

“2005年,我们的一款产品出现了返油问题,泄漏了100ppm。我们的分析表明,这些现场报表在客户系统中根本不起作用,但它通过了我们在ate上应用的所有测试,”Roehr说。“系统级测试(SLT)不是我们生产流程的一部分,我们无法承担增加SLT的费用。我们确实分离了现场退货的性质,以了解广泛的工程描述可以将现场退货与通过基于SLT和ate的测试的部件区分开来。我们没有足够的时间对ATE进行工程特性类型测试。”

所以现在的问题是,是否可以使用其他一些测试参数来区分字段返回和通过系统级测试的好部件?

“我们开始深入研究数据,”罗尔说。“这是我们发现的首批案例之一,当你逐个晶圆批次或逐个晶圆观察零件时,我们可以开始看到一些东西。如果你在规格范围内查看零件,你不会发现问题。但当你观察很多单独的部分时,有一些部分看起来不太像它们的姐妹,尽管这些部分在规格范围内。”

他指出,对选定部件的故障分析从未确定明确的缺陷机制,他推测,行为的变化是由于与时间相关的故障——信号路径有更多的延迟。此外,在系统测试中运行了一小部分未通过新测试的部件样本。并不是所有的部分都未能通过系统测试,但其中有足够多的部分未能提供信心,现在存在一个足够的屏幕来检测所有的字段返回。

用于数据收集和分析平台的ROI
查看分压器的所有测试数据可以为工程师提供大海捞针的方法,这就是测试逃脱。然而,如果没有足够的投资,这可能是不可能的。与Roehr类似的测试逃脱故事,其他产品工程师说他们可能需要9到12个月才能了解测试逃脱问题。然后他们需要深入研究测试数据存档。要轻松做到这一点,需要在数据收集、存储和分析方面进行投资。此外,由于数据对齐问题和数据共享的业务障碍,对于idm的产品工程师来说,这比在无晶圆厂公司更容易完成任务。

“在经典的数据流程中,分段供应链和缺乏数据共享仍然是需要克服的一般数据管理差距:客户设计到代工到OSAT到客户。为了帮助解决这一问题,我们看到更多的“交钥匙”制造选择为无晶圆厂客户,”Mike McIntyre说,软件产品管理总监上的创新.“这些构建选项有助于数据整合,但不幸的是,这些选项在支持技术的广度、应用程序和参与者数量方面都受到限制。”

半导体数据分析公司将其成品率管理平台出售给无晶圆厂公司、代工厂、idm和osat,因为这些客户希望了解他们在IC性能和质量中的各自作用。很少有人能够预先预测一个产品将需要的新的异常值检测技术。

工程经理向他们的团队成员提出的问题是:“投资的回报是什么?”在没有任何工程经验的情况下,提前了解这一点是一个挑战。产量/质量/成本测试三角形的成本一侧出现了。经理们想知道,如果他们的团队花费工程精力预先找到异常值,他们将节省多少钱?工程师会问的另一个问题是,他们如何知道这些异常值是真正的故障,因为系统应用程序的反馈需要9到12个月。

产品存在安全问题的行业部门可能需要预先确定潜在的离群值测试。对于这些产品,降低风险可以获得投资回报。对于进入计算系统和ASIC设备的大型soc来说,由于投资回报率不明确,因此很难证明其合理性。

“我们可以通过去除异常值来提高DPM。那么,它能在多大程度上提高质量呢?Broadcom的研发测试工程师Phil Nigh说。“那么,让我们来看看测试一个典型的数字SoC/ASIC。通过避免异常值可以检测到多少额外的DPM ?我的经验大概是10%10%并不多。我想说的是,对于相对小批量的产品,很多客户无法测量到10%的DPM变化。”

结论
客户退货的测试逃逸将继续发生,产品、产量和质量工程师将需要做出回应。有了今天的产量和测试数据分析平台,评估测试数据中可能影响客户系统的异常值现在是可能的。对大多数产品工程师来说,提前识别它们似乎毫无意义,因为他们已经应用了所有已知的测试。

测试数据分析平台可以识别出具有明显总体差异的测试参数组合。然而,大多数工程师仍然持怀疑态度,没有证据证明它在客户系统中失败,最终DPM只能在最终客户系统中测量。并不是所有的异常值都将指示系统将失败的部分。

有关的故事
自适应测试取得进展
对以合理成本提高质量的需求正在推动测试过程的巨大变化。

自动集成电路的部分平均测试不够好
高级节点芯片和封装需要额外的检查、分析和时间,所有这些都增加了成本。

Fab和测试数据太多,利用率低
目前,收集到的数据的增长已经超过了工程师分析所有数据的能力。

芯片制造中的数据问题越来越多
主数据实践使产品工程师和工厂IT工程师能够处理各种数据类型和质量。



留下回复


(注:此名称将公开显示)

Baidu