使用有针对性的电气测试和100%的检查可以发现更多的sde,但不是所有的sde。
工程师们开始了解静默数据错误(sde)的原因以及它们导致的数据中心故障,这两者都可以通过增加测试覆盖率和加强关键层的检查来减少。
无声数据错误之所以如此命名,是因为如果工程师不去寻找它们,那么他们就不知道它们的存在。与其他类型的错误行为不同,这些错误也可能导致间歇性的错误数据中心功能故障.这两个元而且谷歌工程团队表示,软件的做法可以识别和包含芯片与SDEs测试。[1,2]尽管在检验和测试过程中不能100%筛选这些材料,但专家承认有必要改进生产筛选。
工程师们正在改进两者吃了路径延迟缺陷的测试覆盖范围和系统级测试内容,重点是计算电路。改变测试参数,如频率和电压供应也已被使用。通过对触点、通孔和其他关键级别进行100%的检查,甚至可以筛查更多的SDE逃逸。
Meta和谷歌超规模数据中心运营商报告发现sde特别影响CPU计算。他们追踪到数据中心CPU上的单个核心的错误率为100和1,000 DPPM(百万分之瑕疵),工程师将其归因于制造产生的缺陷。
用于数据中心应用的soc是复杂的大型设备,包含数十亿个晶体管和数千亿个触点。任何绑定到数据中心的计算设备- CPU, TPU, GPU -在14/10/7/5nm节点上制造,将以类似的速率显示sde。简而言之,随着CMOS工艺的不断缩小,制造高质量部件变得更加困难。数据中心分析指出,SDE问题不仅仅表现为测试逃脱。
“毫无疑问,这是一个复杂的问题。一个合理的方法是将其划分为子问题,”Tessent的工程副总裁Janusz Rajski说西门子EDA.“我看到了三个子问题——时间零缺陷,它代表测试逃避,早期死亡缺陷(也就是潜在缺陷),以及在系统中产品生命周期后期发生的与老化相关的缺陷。”
通过分解缺陷行为类型,工程团队可以集中精力。更好的测试和筛查会有所帮助。更好的测试意味着新的测试内容。通过改变测试条件、通过/失败标准或利用100%晶圆检测能力,可以实现更好的筛选。
高级节点缺陷
在过去的三十年中,CMOS工艺中的缺陷类型没有显著变化。然而,每收缩一次,缺陷就会以更高的速率出现。设计灵敏度显著变化——包括物理结构和时序参数。例如,一个在22nm时无关紧要的缺陷会在14nm时产生影响,一个在14nm时无关紧要的缺陷会在10nm时产生影响,等等。
的首席技术官Andrzej Strojwas说:“布局的敏感性来自于将设计规则推向边缘PDF的解决方案.“例如,考虑门的尖端尺寸设计规则。如果你看一下源/漏接触到门空间的边缘,它们实际上是不可能完成的任务。接下来,考虑接触的设计规则。人们必须缩小接触栅极间距和源/漏接触点与栅极之间的间距。触点尺寸和触点与栅极之间的距离都被压缩了。”
sde的所有测试证据都指向增加的路径延迟,这通常意味着增加的互连路径电阻。导致路径电阻增加的主要缺陷机制是互连金属的变窄和边缘接触或通孔。互连的变窄可能是由于随机缺陷的存在或对光刻变异性的布局敏感性。对于接触和通孔相关的缺陷,人们需要考虑孔总是具有挑战性的创建,填充和降落在底层金属或硅。
接触需要金属和硅之间的冶金声音欧姆连接,这是通过形成硅化物来完成的。通过高温退火,金属和硅形成了这个界面层。缺少硅化物,或硅化不充分,会导致较高的接触电阻。M1到M2的通孔是金属对金属的连接,但10/7/5nm的孔很小,很难制造。
制造一个接触/通过需要蚀刻一个孔,并用金属填充它,以创建冶金接触。制造触点/通孔的工艺步骤充满了不良欧姆连接的机会。在关键层引入EUV光刻技术后,这种情况只会增加。EUV需要更薄的电阻,在蚀刻过程中更容易腐蚀,导致孔边缘粗糙度。等离子体蚀刻到电介质,然后是湿化学清洗,充分的毛细管作用清理残留物。当触点收缩时,残留物会形成一个干扰硅化物反应的绝缘屏障。这些额外的挑战增加了抗性增加的可能性。
增加微妙的有缺陷的计时行为
随着高级节点缺陷的增加,路径延迟可变性增加,沿某些路径的时间裕度减小。由于路径延迟的可变性,相同的缺陷可以在一个芯片上产生SDE,而在另一个芯片上则不会。增加路径延迟会导致触发器的竞态条件和时序故障,从而导致亚稳态行为。
其他工程师也注意到了这一点finFET电路显示增加米勒电容,这可能导致在标准单元输入上的数据依赖。这些微妙的电路级行为与数据中心ic的超大规模用户观察到的系统行为一致。
Meta、谷歌和Intel提供的数据表明,SDEs是由于在不同的系统条件或不同的计算数据输入下表现出来的缺陷造成的。这些证据确实指向了路径延迟。此外,一些SDE故障的低重复性指向时间故障,这可能是由较长或较短的路径延迟引起的。
“我们很有可能看到设计的边缘性,”Adam Cron说Synopsys对此.“他们在这里运行得太快了,或者他们在设计上没有给予足够的回旋余地。只要轻轻一推,它就越过了边缘。这些推力就是晶体管——稍微小一点,一点点热,一点点压降,一点点路径电阻。他们并没有在设计师的模型中建模。在它们被放入系统之前,它们不会以这种方式进行测试。”
但是SDE问题也不像直接影响计时的缺陷那么简单。
行为更加微妙。正如英特尔工程师在2014[3]中强调的那样,这些缺陷行为在频率和电压方面具有不寻常的行为。令人惊讶的是,他们注意到故障可能发生在较低的频率。
图1:英特尔工程师注意到的边缘缺陷行为的概念性shmoo图[3]。来源:Anne Meixner/Semiconductor Engineering,经允许重新绘制
报告的标准测试内容和系统级测试内容的低可重复性说明了缺陷行为的微妙之处。这种低重复性可能是由于数字触发器的亚稳态。
“如果你问我哪一个故障会导致sde,我的答案是软故障最有可能,因为这就是数据显示的,”该公司首席测试策略师戴夫•阿姆斯特朗(Dave Armstrong)表示美国效果显著.“这很可能最终成为一个延迟错误。但它也可能是由亚稳态失败引起的不确定性情况。如果你有一个太接近时钟边缘的输入,它违反设置或保持时间,然后输出可能是不确定的。它可能既不是1也不是0,而是中频带。然后,根据它的下一个解释,它可以变成1。然后你可以重复它,它会向相反的方向发展。这又回到了邻近核心的工作负载上,它可以在温度和动力轨道上产生微小的局部扰动。当你用SDE在核心上重复操作时,工作负载1、工作负载2和工作负载3会得到不同的结果。”
制造筛选方案
与消费类产品相比,用于服务器市场的微处理器在晶圆探头和封装测试中都有更长的测试模式。此外,每个部件都要接受系统级功能测试,通常需要40分钟到1小时。然而,SDE失败逃脱了这些测试。
“调试sde本身就是一个挑战,因为它涉及到所有的软件和硬件堆栈级别,包括设计、测试和使用,”公司产品营销总监Walter Abramsohn说proteanTecs.“与错误不同,这些错误是不一致的,即使是可重复的,它们也可能以不同的形式出现在不同的地方,对数据进行不同的修改。可能需要几个月的时间才能找到他们。”
服务器cpu中SDE故障核心的特点是它们是随机发生的,并且需要非常特定的数据值来驱动故障。应用随机数据可以帮助测试,但看似详尽的随机数字测试仍然是不完整的。
在2022年9月的一次谈话中,Meta的发布到生产工程师Harish Dixit提供了该公司软件识别过程的详细信息。Synopsys的Cron说:“Dixit列出了他们15天的测试(在产测试,即波纹测试)和6个月的测试(停产测试,即舰队测试)。”“这两者的交集是70%。15天之后,当你再测试5.5个月时,你会多获得23%的检测结果。但为期15天的较短测试仅能检测出另外7%的人。他们确实提到他们在用随机数据进行测试.在六个月的时间里,他们在更长的时间里做了更详尽的测试,所以每次测试都是不同的。但是较短的测试检测到了较长测试没有检测到的部分。他们从未真正说过的是,‘我们从未在这6个月里进行过7%的测试。’所以6个月也不是彻底的,这告诉我,你无法通过测试来摆脱它,因为它是家常便饭。”
图2:Meta在6个月(舰队)和15天(波纹)屏幕上发现的所有sde的维恩图。资料来源:Anne Meixner/Semiconductor Engineering
对随机数据和指令的需求本质上表明了制造测试的巨大挑战。然而,通过改进制造筛选,工程师可以提高输出质量并降低数据中心的故障率。
英特尔高级首席工程师David Lerner表示:“由于现代处理器和其他soc的大量数据、地址和指令空间,需要随机组合数据/指令来覆盖所有可能的故障模式,包括那些表现为SDE的故障模式。”“根据定义,SDE故障是‘无声的’,只有在每次计算的每一位/位数都得到验证时才会出现,因此筛选到100ppm以下的水平需要比以前更广泛的测试来满足客户的质量期望。从历史上看,专门针对仅表现为SDE的故障的测试是有限的。虽然确实存在一些用于检测SDE故障的系统级测试(SLT),但该领域的低观察率并不表明由于缺陷导致的SDE发生率很高。最近,英特尔增加了专门用于检测SDE的测试的投资。今天,这些测试正在筛查以前可能被遗漏的缺陷。”
改进测试模式
在制造环境下,测试内容可以扩展到晶圆探针测试、最终单元测试和系统级测试。
使用ATE插座,工程师根据其数字电路测试覆盖范围评估应用测试模式。基线测试提供了固定故障覆盖,其中逻辑门的输入或输出固定在1或0。这些模式可以以高速或更慢的速度运行。故障覆盖率目标通常设置得很高,例如98%。下一步是转换故障覆盖,其中以速度测试从1到0或从0到1的不成功更改。路径延迟测试需要更仔细地观察速度,但确定所有延迟故障路径并应用它们在计算上具有挑战性。此外,还有一个假设,即模拟可以准确预测哪些路径将是最长的。在过去的几十年里,微处理器设计团队已经证明,基于刺激的预测最长路径通常不是在后硅验证中得到的结果。
由于需要更精确的覆盖率,基于单元格感知故障模型的测试正变得越来越普遍。多位行业专家指出,基于cell-aware的测试是增加sde检测的一种方法。
“有两件事是绝对必要的——细胞感知诊断,以及在细胞感知范围内考虑系统缺陷,”PDF的Strojwas说。
运行多周期模式,使用两个或多个周期,可以检测到更多的缺陷。“通过细胞感知模式,我们可以观察细胞内部,并根据细胞结构发现缺陷。缺陷包括晶体管级的特性和互连缺陷-开路,短路,内部桥接,”Rajski解释道。“开发的模式可以是单周期模式或多周期模式。如果晶体管较弱或连接较弱(电阻较高),则会导致传播延迟增加。使用多周期模式,可以测试传播延迟。例如,单元格输出切换是否足够快?两个周期或多周期模式将强调时间关系。然后,人们显然想要沿着更长的路径传播它,这样检测到的可能性就更高。这是一个重要的方面,因为我们看到,通过我们的模式,我们实际上有更高的检测缺陷的能力,而不仅仅是组合细胞感知模式。”
在制造环境中,系统级测试复制最终客户的系统。
的系统级架构师Peter Reichert说:“系统级测试是一种获得更多现实场景的尝试Teradyne.“所以这个问题(SDEs)不会停滞不前。这就像两个电路之间的串扰,或者只有在特定操作中使用该部件时,模具两个部分之间才会出现不同的热加热。”
挑战在于,从功能测试到所涵盖的错误的精确映射实际上并不存在。工程师应用这些内容,如果一个单元出现故障,它不会传递给客户。系统级测试应该能够通过应用适当的测试内容来复制数据中心故障。然而,正如前面所强调的,计算中隔离这些单次出现的错误所需的数据的随机性甚至可能是不可重复的。
通过使用英特尔数据中心诊断工具,现在存在一套大型系统级测试集,用于检测sde。英特尔工程师在他们的ITC 2022论文中报告了三个测试集的检测能力与测试长度的关系。在每个测试集中使用随机数据,重复使用新的随机数据测试集可以提高检测率。
图3:英特尔使用特征检验报告的故障时间分布结果。[4]
查明环境压力
另一个工具涉及到制造测试条件-时钟频率,电源轨道设置,温度等。
Reichert指出:“在ITC 2022上,我明白的一点是,集成电路在低速节电模式下变得不那么可靠。“由于降低了Vdd以节省功率,晶体管不仅速度更慢,而且速度变化更大。目前还没有一种可行的方法来测试路径延迟,至少不能使用扫描。一个想法是这样的问题——“将sde与计算机中的特定核心或操作隔离的研究人员是否确定了处理器运行的速度/功率模式?”’如果没有,这似乎是一件很重要的事情。”
如果知道的话,可以用来逃跑什穆在这些模式上。2014年英特尔的ITC报告强调,客户的故障部件在较低频率下比良好部件表现出明显的差异。这可能是由于路径延迟故障和cpu使用的结合动态电压频率缩放(DVFS).
因此,改变现有测试内容的测试条件,使其与现场观察到的电压/频率模态保持一致可能是有用的。一些测试表明,这种改变不需要太复杂就能产生效果。
在ITC 2022上展示的海报中,英特尔工程师展示了将电源轨道设置降低数十毫伏的有效性,以检测客户使用标准系统级测试(SLT)内容失败的sde。[5]通过移除它进行生产级测试,施加的电压应力可能会加剧潜在缺陷,从而导致SDE。当添加6%的SLT含量时,检测到3%的SDE DPPM。之后,他们开始运行90%的SLT测试内容,并检测30%的SDE DPPM。
检查模具100%
当工程师知道了缺陷机理,他们就可以在晶圆检查时进行筛选。
传统上,生产晶片检查通过对晶圆批次中的两个晶圆上的多个位置进行采样来实现。为了满足制造步骤之间的生产水平工艺时间,工程团队有大约2小时的时间来执行检查。但随着最近技术的进步,100%的检测已经成为可能。晶圆检测供应商已经开发了设备、物理设计分析和计算机视觉算法,以支持更复杂的检测测量目标和理解。这种能力可以通过观察触点、通孔和前几个金属层来支持检测标准电池中发现的最可能的SDE缺陷机制,这些金属层也创建了标准电池之间的互连。
检查触点和通孔很重要。在一个拥有20多亿个晶体管的SoC中,M1和M2处至少有三个触点和通孔。一个电子束工具可以用来寻找接触和过孔缺陷,不同的电阻值导致不同的电压对比发射。
”光学接近校正(OPC)有重新定位,但仍然存在问题,”PDF的Strojwas说。“我们发现,即使在批量生产的产品中,由于非常特殊的布局系统,也可能会有2%到3%的产量损失。客户可以使用我们的提取工具Fire来识别那些系统分类存在的区域。接下来,在空白区域,他们可以在这些区域附近插入相同的结构。然后,使用我们基于矢量的电子束工具,他们可以测量这些区域并识别故障。这种类型的缺陷发生在十亿分之一,需要检查数十亿个接触点或堆叠过孔的位置。”
通过100%的检测,工程师现在可以搜索可能缩小互连的缺陷。此外,在汽车测试中常用的离群值检测策略已被用于评估缺陷检测数据。
结论
Meta和谷歌工程团队都投入了数千小时的工程时间来确定无声数据错误的原因,以及驱动sde的特定软件应用程序、计算和数据值。检查由数十万甚至数百万台服务器组成的团队需要一种策略,该策略能够有效地利用分配给检查sde的时间。
识别有错误行为的服务器cpu确实会导致遏制,但这是有代价的。工程师们正在评估在IC供应商的制造测试过程中可以做的任何事情,以减少泄漏。选择从晶圆检查开始,涉及额外的测试内容,并扩展到制造过程中更好的系统级测试。
图4:用于数据中心SDE检测的筛选选项。来源:半导体工程
虽然筛选选项可以提高对导致无声计算错误的缺陷的检测,但行业专家一致认为,在制造过程中100%的密封在经济上是不可行的。因此,需要采取额外的措施来减轻影响。
英特尔的Lerner说:“由于前面讨论的各种原因,单靠测试不太可能充分缓解SDE,特别是在数据中心规模上。”“至少,增量弹性和冗余特性以及定期的现场测试,最好是利用高效的bist类结构,以实现足够低的SDE FIT率。”
-Katherine Derbyshire对本文也有贡献。
参考文献
有关的故事
为什么隐性数据错误如此难以发现
数据中心cpu上的IC缺陷会导致计算错误。
硅生命周期管理对IC可靠性的影响越来越大
作为提高异构芯片和复杂系统可靠性的一种手段,SLM技术正被广泛应用于芯片设计中。
留下回复