人工智能有望提高可靠性,但还不完美。
人工智能/机器学习正在越来越多地用于发现芯片制造和测试中的模式和异常值数据,提高终端设备的整体良率和可靠性。但有太多的变量和未知因素,无法仅使用人工智能就可靠地预测芯片在现场的表现。
今天,每一个人工智能用例——无论是自动驾驶汽车还是工业分拣机——解决了一个特定的问题,这使得它是独一无二的。同样,用于半导体制造和测试的基于人工智能的系统也适用于解决晶圆厂或封装车间的特定问题。问题在于保持毫升算法是人工智能系统的核心,随着时间的推移,条件会不断变化。机器学习算法和模型需要适应设备以及正在制造和包装的设备的其他变化。
“我们可能不得不建立一个持续的培训和监控过程,”公司技术和战略副总裁Keith Schaub说美国效果显著.“流程漂移,这意味着数据漂移,这意味着您需要持续监控数据,并在流程漂移时触发再培训。我们知道怎么做。挑战在于要知道要训练多少,以及多长时间再训练一次。在我触发再培训之前有多少漂移?”
当AI/ML系统被用于创建AI/ML芯片时,整个过程将变得更加复杂,而当机器被用于训练其他机器时,整个过程将变得更加复杂。人工智能的测量是以概率和分布而不是固定数字的形式报告的,包括包装在内的许多工艺步骤中的任何固有变化都可以是增量和可添加的。
测试晶圆厂中使用的ML算法和模型
检查ML算法和AI系统的基本技术确实存在有许多方法可以验证ML算法对制造和测试流程的有效性。B但即使有了这些成熟的技术,一个成功的人工智能实施也必须考虑到随着时间的推移会发生什么,比如晶片厂或装配厂的变化。
“当你在工厂测试你的模型时,你想做一个真实的生产模拟,它可以感知时间,”Jeff David说,该公司的人工智能解决方案副总裁PDF的解决方案.“我们有很多种方法在工厂进行测试。例如,你有盲抵抗数据集。基本上,这意味着你有一个验证数据集,它完全独立于用于训练或选择模型的数据。在训练阶段,该数据集根本不会暴露。有许多不同的方法可以进行验证。其中最著名的一种方法是k-fold交叉验证,其中k代表任意数量的整数。”
所以可能会有8倍或10倍的交叉验证。10倍交叉验证意味着将数据集分成10个块。
大卫说:“假设你将数据集完全随机地分解,或者以某种方式分层,跨越你想选择的许多边界。”“你不会想用同一批次的数据进行训练和测试。这就是作弊,因为在现实世界中,你永远不会遇到这样的情况。你把数据集分成10%的数据块。数据块A是数据的10%,它可以被随机选择,当然,是分层的。然后你有10%的数据块组成整个数据集。十倍交叉验证意味着你基本上会旋转所有10个区块,训练90%的数据,然后在其他步骤上进行测试。剩下的10%已经完成了。然后你旋转到下一组,再下一组,再下一组。这样做10次。 You train and test 10 times. Then you’re getting a good feel for that data set or how robust your model is across all that different data.”
最大的问题是,晶圆厂的条件在运动,无论是物理上还是时间上。工具中的传感器会漂移,设备需要不断地重新校准。此外,许多算法本身都在更新,而在晶圆厂或装配厂中,并非所有设备都是相同的。模拟需要覆盖在这些模型上,以整合所有这些变化,并且在模型中构建这种精度并非易事。
“从你的工具中得到的数据会有漂移和变化,”大卫说。随着时间的推移,工具设置可能会改变。操作员可以对测试器进行更改,从而影响从传感器收集的数据。处理添加到测试算法中的时间组件的一种方法是使用您已经拥有的数据将时间段分成块(例如一年的数据),按时间段模拟训练,然后将其与实际情况进行比较。“当你不断训练和测试你的模型时,你基本上是在穿越时间,就像你在现实生活中的生产模拟中一样。然后你就会看到它是如何成立的,因为在这种情况下,你就有了基本的真相。”
在过去,这类问题可以通过在制造过程中添加保证金来解决。但是,特别是在高级节点和异构封装(其中一些芯片是在前沿节点开发的)中,公差越来越紧,对精度的要求越来越高。增加太多利润,可靠性就会受到影响。加得太少,产量就会下降。虽然AI/ML可以帮助识别其中一些问题,但这些系统生成的数据必须在大量移动片段的背景下进行处理。因此,现在,不是采取即时快照测量,这些测量需要结合不同时间段的模拟。
在一个层面上,所有这些都可以被分解成可管理的部分。“行业使用培训数据和验证数据集,”Advantest的Schaub说。“验证数据集用于检查ML是否正常工作。”
图1:基于晶圆厂的基本AI系统。机器学习是一种从数据中学习来创建模型的算法。一旦训练和部署,模型就可以做出预测。人工智能系统就是围绕它构建的。资料来源:PDF Solutions/Semiconductor Engineering
在另一个层面上,这个过程中有很多未知因素,所以有一个备份策略来评估所有这些变化也无妨。在制造和测试设备中增加更多的灵敏度可以在这方面有很大帮助。事实上,工具越不敏感,机器学习模型成功的机会就越小上的创新.
“首先,在计量学中,最重要的是你需要有灵敏度,”郝说。“你的工具必须对过程中发生的维度变化具有敏感性。没有任何敏感性,机器学习或任何其他技术都无法帮助你。其次,由于我们正在测量的设备的低灵敏度和复杂性,使用经典的基于物理的建模技术已经不够了。这就是机器学习发挥作用的地方。另一方面,机器学习本身可能不是唯一的解决方案。物理仍然很重要。”
人工智能芯片vs.人工智能设备
对于AI/ML,事情很快就会变得混乱,因为AI/ML技术越来越多地用于AI/ML芯片的制造。
该公司研发副总裁Tim Skunes表示:“为了在晶圆厂测试芯片,检测和计量流程被用于缺陷检测。CyberOptics.“在制造过程中,人工智能芯片可以以与其他芯片类似的方式进行检查。”
但这些芯片的外观和性能也与其他芯片截然不同。“在某些方面,人工智能芯片到目前为止只是一个非常复杂的SoC,”英特尔公司Silicon Lifecycle Management的营销总监兰迪·菲什(Randy Fish)说Synopsys对此.“然而,这些架构或微架构与我们在历史上所习惯的soc有根本不同。”
首先,人工智能分为训练和推理两部分。“这两个环境的限制条件非常不同。但至于如何测试,它是从晶圆厂出来的,你从晶圆厂得到一些信息,一些测试信息,一些晶圆测试的东西。然后你进入晶圆级测试,所以你在OSAT他们要么在做逻辑BiST,要么在做内存BiST,要么在做DFT。”“我们与许多人工智能芯片合作。对我们来说,在很多情况下,这是另一个测试挑战。等级分明。有趣的是,很多芯片都是排列结构。所以你可以通过这种方式解决测试问题。”
在人工智能芯片中,阵列结构用于创建网络。但人工智能芯片不像标准处理器那样生成汇编代码或映射到二进制文件,而是映射到网络。
他解释说:“你经历了训练阶段,它就建立了一个有权重的网络。”“然后这些被映射到没有个性的芯片上,直到你提供这个网络。这是第一种编程。然后你在这个网络上传输数据,它就会进行推理。它从中推断出一些东西。我们不会在这个级别上进行测试,但这与我们在手机上使用应用程序处理器类似,我们不会测试所有这些功能。结构测试和系统级测试本身就是一个完整的领域。”
AI芯片可以花更多的时间在测试器上,而修复是画面的一部分。菲什说:“我们参与了一些非常大的、有十字线限制的设计,尤其是在训练方面。”“测试时间很敏感,因为他们要在测试上花很长一段时间。还有修复。在这些较大的数组结构中,您不仅仅是在进行内存修复。实际上,您可以修复处理器,例如在测试期间可以将处理元素排除在外。您可以单独测试处理单元,如果其中一个坏了,它就会被映射出来。所以在这一点上,有更多的宏观层面的测试和修复。”
做出这样的更改可能需要返回并检查软件编译器。Synopsys仿真和原型产品营销高级总监约翰内斯·斯塔尔(Johannes Stahl)说:“有了这种冗余,或者省略了处理器和重映射,编译器当然需要理解。”“因此,我们需要通过硅来再次测试这个编译器的能力。”
从长远来看,芯片正在发生变化,芯片上和测试设备中的算法正在发生变化,利用AI的制造和包装设备传感器正在漂移。因此,除了从全球角度看待这些问题外,还必须单独解决不同的问题。
Schaub表示:“支持人工智能的芯片构建在CPU和/或GPU之上。因此,晶体管水平的测试基本保持不变。一旦有了嵌入式AI算法,这个挑战就变成了,算法可能是一个“黑箱”。我们需要提出一种可靠的方法来确保黑匣子正常工作。”
这就需要一种方法来评估这些测试的准确性,而机器学习就应用在这里。CyberOptics公司的斯科内斯说:“并非所有的机器学习系统都是平等的。“你希望你的机器学习算法是有效的。你想要快速获得良好的性能。例如,像AI2这样的机器学习算法,通过展示良好/无缺陷的图像或缺陷的图像来进行教学,可以改进流程和产量。操作员可以快速教授,然后监控,从结果中学习,并在需要时通过更新训练集来改进和适应。我们设计的机器学习算法是有偏见的,目标是不逃脱,所以没有坏产品离开工厂。”
晶圆厂的最后一步是确保AI芯片或系统按预期运行,这是系统级测试的工作。“从晶圆到晶圆再到封装(FT),测试仍将在晶体管层面,因此没有太大变化。它将在系统级测试中,在软件中加载人工智能算法,事情将变得有趣。”Schaub说。“只要AI/ML是静态的,这就是事情的现状,这在短期内不应该是太大的问题。一旦我们开始部署自我学习系统,事情就会变得有趣起来。通过自我学习系统,我们可能会看到特定的AI校准和诊断并行部署,持续监测和检查AI本身。”
PDF的大卫对此表示赞同。“你应该不断地验证你的系统。你可以确信,这适用于一些过去的数据。但展望未来,我是否真的有足够的信心将我的作品发布到这个东西上,并相信这个系统会起作用?”答案通常都不是百分百的信任。
模拟前的AI测试
虽然所有这些都需要在晶圆厂中理解,但也需要反馈到设计过程中,在设计过程中可以模拟并将其纳入测试计划的设计中。在这方面还有很多工作要做。人工智能软件在人工智能系统的早期设计阶段还没有准备好进行仿真。
Synopsys的斯塔尔说:“在过去的5到10年里,我们拥有了CPU、gpu、内存和外围设备的规范架构。“整个设计界都知道如何做到这一点,他们已经有了可以在这些芯片上运行的软件,比如Android或iOS,或者任何需要在这些硅芯片上运行的软件。所以问题主要是在硬件上引入软件,并尝试做这个前置硅,以确保以后在这个领域没有惊喜,或者在制造之后,没有惊喜。在过去的10年里,整个行业都明白这一点。在过去的5年里,我们采用了非常快速的仿真技术,让这个软件在硅之前出现。所以这一切都是为普通的CPU或基于处理器的芯片。”
AI是不同的,带有AI软件的编译器可能是一个问题。斯塔尔说:“人工智能在整个层面上加剧了这个问题,原因如下。“在人工智能领域,软件并不以标准软件的形式存在。这些都是特定于应用程序的。而且,这些公司不仅没有针对每种人工智能架构的软件,还必须开发一种新的软件堆栈——一种可以接受任何人工智能应用程序的编译器,并可以编译它们以在其目标架构上运行。而且因为所有这些编译器都是新的,所以它们可能存在bug和效率低下。所有这些人工智能公司都创建了一个基于芯片的软件模型,然后开发了基于编译器软件堆栈的软件模型,但最后这还不够。几年前,当我们与第一家人工智能公司合作时,我们的目标是什么?他们需要在实际硬件上运行所有这些不同版本的软件编译器,并弄清楚它是如何工作的。然后,在几代客户中,我们有一个客户是真正使用仿真的。 Over the course of one year they optimized their software stack so that the performance of the chip was 30 times higher than when they started. You can see the potential of what they need to do for success in the market, but they need to all come up with the best performance for these chips so they can function in real life. That’s what we have done over the last several years.”
结论
AI/ML在半导体制造和测试方面仍处于早期阶段。因此,虽然AI/ML在发现潜在的极端情况和发现潜在缺陷方面有很大的希望,但它不能100%被信任。
PDF的David建议严格控制AI/ML,而不是用层层算法来监控其他算法。“如果你正在创建机器学习算法来进行预测,以修复其他机器学习算法,那么计算成本非常高,”大卫说。
总有安全模式。如果客户对AI系统预测的信心很低,那么在改进ML算法和模型之前,晶片厂或OSAT总是可以回到没有AI系统的方式。
“物理模型和机器学习模型都是预测模型,”Onto的Hao说。“我们发现,通过将物理学和机器学习结合起来,我们可以获得最佳性能。机器学习是物理学的补充。它可以帮助物理学,但不会取代物理学。”
有关的故事
留下回复