中文 英语

IC可靠性负担左移

工程团队面临的挑战正在改变,他们正在跨越传统的界限。

受欢迎程度

随着集成电路驱动系统发挥越来越重要和复杂的作用,芯片可靠性正受到更严格的审查。因此,无论是一个游离的阿尔法粒子翻转了内存位,还是一些长期潜伏的软件漏洞或潜在的硬件缺陷突然引起了问题,现在都取决于芯片行业在第一时间预防这些问题,并在它们出现时解决它们。

当这些系统进入生产阶段时,或者更糟的是,当它们在现场发生故障时,解决问题的能力既有限又昂贵。因此,系统供应商和晶圆代工厂已经解决了从设计到制造流程中遗留的问题,一直回到最初的架构和布局,然后是更密集的验证和调试。

可靠性取决于解决流程中每一步都可能出现的问题。芯片层面的挑战是确保日益复杂的芯片也能够在深度微妙的应用程序和用例中贯穿其整个生命周期。

“我们已经从传统的半导体可靠性概念,转变为工程团队希望更多地分析系统方面的事情,以及与软错误和软件等事物的交互,”公司首席执行官Simon Davidmann说治之软件.“例如,在汽车行业ISO 26262资格,其中一件让开发者真正担心的事情是由于硅的小几何形状,有可能在内存缓存中随机位翻转,因为宇宙射线,他们想知道软件是否有足够的弹性。如果发生某些错误,系统是否能够存活?在一定程度的随机性下,软件如何生存?汽车会继续转向吗?如果缓存被损坏,刹车还能继续工作吗?”

十年前,浴盆曲线、CMP建模和SEM pitch等传统指标构成了大部分可靠性基准。从那时起,从设计到制造,甚至实时监视器可以测量设备在任何给定时间的表现,都添加了更多的指标。还有更多的人在使用这些指标。

该公司可靠性应用产品管理总监马修·霍根(Matthew Hogan)表示:“材料科学家是感兴趣的各方之一西门子数字工业软件.他们在看电迁移例如。他说:“我们能使用的最新金属合金是什么呢?它更坚硬,能减少电迁移,有助于设计,但也能与其他设计生态系统兼容,以及我们用于通孔的套管和插入件?”我们可能想把它用在特定的金属层上。他说,几年前,(一家行业杂志)在头版大篇幅报道英特尔如何使用金属合金,当时它将成为仅次于英特尔的最佳选择。有很多关于电迁移的研究和“天要塌下来了”的宣言,因为节点越来越小。finfet可以显著提高电流密度,但导线的厚度却越来越薄。然而,我们似乎仍然能够一代又一代地制造芯片。现在的情况是,我们过去拥有的设计利润正在被侵蚀,所以作为一个行业,我们正试图更清楚地了解我们必须考虑的实际设计利润,以便成功地使用这种设计。”

这使得可靠性分析变得复杂。虽然这一术语仍然定义了一组测量和统计技术,用于估计给定产品、电路或设备发生故障的可能性,但要获得信心,使其能够在广泛的变量集上持续和可预测地工作,这是一个巨大的挑战。

“由于一个硬件可能出现故障的机制有多种,所以工程师可以执行许多不同类型的可靠性测试,”应用程序开发工程师和科学家Matthew Ozalas说Keysight技术.“许多常见的测试都是加速的,其中设备受到超出正常运行的压力条件,并在比测试时间长得多的时间内进行监测,以推断故障指标。一些常见的加速可靠性试验是高温工作寿命(HTOL),其中一组零件样品在电气操作下的高温下运行;高温储存(HTS),即零件样品在高温下以“关闭”状态储存;以及高加速温度和湿度压力测试(HAST),其中设备受到高湿度和温度水平的影响,可能是在电子刺激下。”

其他类型的可靠性分析将设备直接置于众所周知的故障条件下,例如静电放电.Ozalas说:“这包括在正常或修改电气操作的情况下,向外部可访问的节点施加特定数量的高压测试信号,然后在施加压力信号后监测故障。”“如果设备通过,电压就会增加,直到失效。然后再给它打分。”

此外,一些机械应力测试可能与电子设备有关,如弯曲和振动。这些通常与封装或电路板设计更相关,而不是半导体-但并不总是如此。这些测试确实增加了弄清设备在发货前可能会出什么问题,以及设备投入使用后会出什么问题的复杂性。

其中大部分都属于失败分析的一般标题。西门子的霍根说:“这是一个概念,在他们真正知道真正价值是什么之前,所有进来的东西都被分类了。”“有一种趋势是将其称为电致物理损伤(EIPD),而不是电过度应力(EOS)或静电放电(ESD)或其他东西。如果它被归入EIPD的类别,这意味着一旦你弄清楚了失败分析,你就必须回头重新分类,因为如果你第一次称它为ESD或EOS,人们会怒气冲冲地到处跑,说,‘我们必须和这个团队和那个团队谈谈。但负责故障分析的人,他们仍在寻找真正的原因。所以,有了EIPD这个类别,现在你就有了一个可以研究、理解并找到真正故障机制的类别。”

此外,Hogan注意到有很多关于失败回报的图表。“‘我们取回这些芯片的原因是什么?“我们非常重视在芯片推出之前进行验证的想法,以确保我们避免这些有问题的领域,要么利用在许多情况下非常出色的代工规则组,要么通过在内部增加一项检查。这些代工规则组为您提供了一个可靠性基线,然后您可以通过额外的检查来补充基线。”

从芯片的角度来看,可靠性的关键措施之一是信号完整性。这听起来可能很简单,但在一个复杂的系统中有很多移动的部件。

例如,考虑DDR5中较高的数据速率会发生什么。该公司副总裁兼总经理Rami Sethi说:“在信号方面,你有一个非常宽的平行总线,它是伪单端的。瑞萨电子.“但当你开始尝试以每秒4.8千兆比特的速度运行时,这是DDR5的起点,再加上我们现在设计的芯片将以每秒5.6和6.4千兆传输(GT/s)的速度运行,你就开始在信号完整性和数据计时方面遇到很多挑战。因此,我们正在实现在高速串行世界中更常见的技术。我们的目标是速度和数据完整性。这些都是相辅相成的。此外,内存服务器模型还有一个被低估的元素。这是一辆多站巴士,所以你不是点对点的。你实际上是在点对多点处理所有经典的信号完整性问题,甚至是电源完整性问题。”

当系统设计变得不那么确定而更多的是概率时,这将是特别关键的。这就提出了一个问题,即特定应用需要什么样的精度水平,以及如果精度发生变化,如何衡量可靠性。

Sethi说:“在服务器领域,经典的5 - 9可用性概念和RAS需求驱动了一个相当高的标准,尤其是在信号完整性方面。”当工程团队试图向cpu添加额外的内存或更大的内存占用时,通常会通过添加更多的内存通道来实现。但是,目前大多数服务器使用的每个通道两个DIMM插槽是很难扩展的。你会怎么做呢?你添加了更多的通道。但这意味着内存插槽占用的物理区域要大得多,而且由于内存插槽的数量更多,它们会离主板上的CPU更远。随着更多内存通道的增加,信号完整性问题继续加剧。”

垂直细分问题
不同的行业有不同的可靠性技术和要求。Keysight的Ozalas说,在某些情况下,测试是相同的,但规格更严格。“在其他情况下,测试也不同或独特。例如,测试和测量产品通常比蜂窝用户设备(UE)具有更长的运行寿命。因此,对于两种类型的产品中使用的IC, HTOL测试设置可能是相同的。但是,如果IC进入测试和测量应用,它将有更严格的平均故障时间(MTTF)规格,这将要求设计工程师在设计中遵守不同的边界条件。对于空间电子产品,这些部件需要满足更高的MTTF规格,但它们也需要满足辐射硬化要求,而测试和测量或蜂窝UE产品不受这些规格的约束。”

从工具的角度来看,从一个细分市场到另一个细分市场并没有太大的变化。真正改变的是花在这些工具上的时间。

“利用你的自动化工具,保持一致,”霍根说。每次都做同样的事情。但根据垂直行业的不同,你所检查的内容是非常不同的。如果你是为一种应用做电子产品,与相邻垂直领域的其他人相比,你可能会有不同的故障模式、不同的设计要求,以及不同的可靠性检查。”

例如,在汽车行业,使用的工具链可能完全相同。他说:“但规则组合和检查,对寿命的预期,以及你对这些差异的关心程度,可能会有很大的不同,这取决于你预计这个产品在市场上使用的时间。”“召回的成本是什么?它是一个孩子的玩具,只能使用六个月,你真的不在乎,因为它是一次性物品吗?这是一辆5年或10年后还需要召回的车吗?根据你所在行业的不同,用于消费产品的集成电路与用于汽车的集成电路有很大的不同,后者可能用于功能安全或信息娱乐系统。因此,即使在汽车行业,也存在这些派系。”

这同样适用于不同的消费或工业组件,以及物联网。

大卫曼说:“如果你要为某种类型的可靠性寻找某种类型的分析,你必须定义你要把东西放进去的类别,比如术语等,以及你确定什么是不可靠的,什么是可靠的阈值。”“关键是这项技术的测试和验证情况如何?它是一个原型吗?是研究的问题吗?它是否在现实世界中被测试过,是否与此相关?”

大卫曼提到了美国宇航局技术准备水平该机构以1到9分的评分对准备情况进行评估。TRL 9仅限于已被“飞行验证”的技术。


图1:NASA的技术准备水平。来源:美国国家航空航天局

模拟与数字的可靠性分析
可靠性失效的两个主要原因是物理和电路设计,但这两个领域非常广泛,有很多可能的排列,从事这些设计的工程师有非常不同的目标和期望。

Keysight的Ozalas解释道:“模拟电路和数字电路通常使用具有相同物理结构的相同设备,但设计不同,因此它们在设备中引发了不同的故障机制。”“例如,在较高的水平上,模拟和数字电路都可能进行HTOL测试,但测试引起的故障可能是由于半导体内部完全不同的机制(即电迁移与热载流子注入),因为电路类型决定了施加在设备上的应力类型。这意味着工程师在设计模拟电路和数字电路时必须考虑不同类型的故障物理。”

即使对于同一个应用程序,可靠性需求也会发生变化。“在过去的四五年里,人们对电压感知的兴趣越来越大刚果民主共和国(设计规则检查),”Hogan说。“这确保了跟踪空间有利于制造,但在每根电线下面都有氧化物,你可以让氧化物在信号上随时间发生介电击穿。如果我有一条1.5伏特的线挨着一条1.8伏特的线,我需要它和其他1.8伏特的线或0.95伏特的线的间距是多少?而0.95伏可能只是最低的制造规则。太好了。但现在,如果你有一个1.5伏甚至0.5伏的信号在这些信号旁边,你需要额外的间距来避免介电击穿,并确保设计更可靠?这更多地取决于芯片的功能,作为设计师,你所关心的是确保你能捕捉到这一点。”

这也是模拟和数字设计之间最大的区别之一。Hogan说道:“对于模拟游戏,你需要不断思考一些微妙的设计问题,包括对称失败。“例如,我如何让安全气囊的一系列设备持续老化?你可能需要在边缘放置一些虚拟设备,这样当你更接近井或其他设计结构时,虚拟设备有不同的老化标准而不是在群集中心的活动设备。在模拟约束检查中,模拟设计必须理解这些微妙的想法,以确保设计中存在对称性,确保你在照顾这些虚拟设备,确保你所创建的模拟结构通过实现具有正确的模式和结构,以便它们能够以你想要的方式运行。”

这与数字角度非常不同,数字角度的重点是时序、漏电和多个功率域。“我如何管理我拥有的电力信封?”现在电池有这么多的应用,我如何让电池续航时间更长呢?电池技术还没有像人们希望的那样快速发展,所以我们在设计方面必须做的是更智能、更精细地管理设计中的不同功率、功率结构和功率域,关闭部分芯片,以更慢的速度运行。”“关于如何延长我们现有结构的寿命和寿命,有很多创新的想法,这样它们就可以满足电力需求。但从可靠性的角度来看,当我们在设计的这些不同部分之间切换时,我们如何确保我们有正确的结构,以便我们可以无缝地进行这些切换,而不会陷入设计问题?”

电迁移是模拟可靠性分析方程的另一部分。半导体部门产品营销总监Marc Swinnen表示:“我们非常关注数字和模拟两方面的电迁移电压降。有限元分析软件.“对于模拟,我们有一个专用版本的工具,具有相同的基本算法和求解器,但目标是晶体管级别。它查看设计晶体管电平并报告出来香料报告。输入、输出和你提出的一些问题都有所不同。”

不过,这只是一个谜题。Swinnen说:“在芯片层面,我们还考虑了静电放电,这是另一个可靠性问题。”“需要进行特定的晶体管级检查,传统上,这是LVS运行的一部分。但客户确实希望在设计周期内进行检查,所以他们使用ESD检查器。”


图2:显示半导体损耗的输出寿命预测图。来源:有限元分析软件

结论
今天的不同之处在于,这些日益重要的系统在多大程度上依赖于芯片。在汽车中,最关键的功能曾经完全是机械的。最重要的是,电子系统现在比以前的机械系统做得更多,比如防止涉及盲点的事故,或者不能足够快地识别刹车灯。

Hogan表示:“由于我们所关注的几乎每个系统都是从集成电路开始的,因此我们将‘可靠性分析’重新定义为‘可靠性验证’。分析是对已经发生的结果的回顾。你把芯片带回有限元实验室,他们帮你把它拆开,然后告诉你发生了什么。或者你做了一些模拟,不管是不是很有趣,你用它来指导可能发生的事情。从验证的角度来看,我们正在努力鼓励晶圆代工厂和设计公司利用这些经验和经验来制定设计规则,以避免这些有问题的设计领域。”

尽管传统的检查在“可靠性分析”术语下涵盖了相当多的内容,但今天的复杂系统需要大量其他分析来确保它们是可靠的,包括一些超出验证范围的分析。

Imperas公司的大卫曼说:“核实只是分析其正确性。“可靠性是随着时间的推移分析正确性。这个系统还能运行多久?另外,你怎么知道事情是无bug的呢?我的iPhone时不时会重启。为什么呢?这是因为它检测到有些东西是不对的。你无法证明软件没有问题,所以你围绕这个问题编写了很多软件,并包含显示“这是不对的”的监视器。让我重启一下。“或者你可以安装监控器来延长正常运行时间。 If my Linux machine crashes, it’s down. If my phone crashes, it comes back. We as an industry have to worry a lot about when it comes to analyzing reliability of systems.”



留下回复


(注:此名称将公开显示)

Baidu