中文 英语

可靠性问题转向芯片设计

目标包括抵消不断上升的制造成本,并在更长的使用寿命中限制责任。

受欢迎程度

对低不良率和高成品率的需求正在增加,部分原因是芯片现在被用于安全和关键任务应用,部分原因是这是一种抵消不断上升的设计和制造成本的方式。

所改变的是在初始设计中重新强调解决这些问题。在过去,缺陷和良率被认为是晶圆厂面临的问题。实施限制性设计规则(rdr),以确保芯片的设计方式能够成功制造。但从那时起,有几件事发生了根本性的变化:

  • rdr在设计中增加了太多的裕度,特别是在高级节点上。这会对性能、功率和面积产生负面影响。
  • 越来越多的芯片正在为特定的应用定制,经常使用某种类型的先进封装、不同种类的处理器和内存,以及独特的架构,这些都是过去没有批量生产的,因此还没有得到完善。
  • 在某些应用程序中,芯片的预期寿命更长,这意味着在智能手机中不是问题的潜在缺陷现在可能需要昂贵的召回。因此,设计团队开始在设计中加入传感器,以确定芯片从启动到预期寿命结束这段时间的表现。

今天,设备和它们所使用的产品可能有非常不同的要求。例如,用于汽车驱动系统的芯片与用于物联网消费设备的芯片具有完全不同的压力和期望。设计团队需要了解这些芯片随着时间的推移会如何表现,从环境和使用条件,到老化、电热、应力和变化效应。

“可靠性是当今电路设计和仿真中需要解决的最重要的主题之一,”ICVS AMS Verification的产品工程总监Ahmed Ramadan Hassan表示西门子EDA.“我们今天拥有的产品可能在2年、5年或10年后就不一样了。如果你现在有一个处理器在某个频率下工作,你可能会期望这个频率在5年或更长时间后会下降,因为电路中的每个设备都施加了压力。偏差或温度方面的压力会降低特定设备的整体性能,这是更大设计中的一个元素。因此,设计的功能可能不会执行它想要做的,或者它会从它想要执行的功能降级。”

设计人员现在必须在电路设计和验证中考虑可靠性,有效地将缺陷、良率和可制造性的关注点在设计-制造流程中一直向左和向右转移。

“在过去,由于缺乏良好的可靠性分析、仿真技术和可靠性模型,设计师会过度设计,从而留下很大的空间。他们添加了很多guard-banding他们的设计是为了确保至少在产品保修期内不会出现故障。”

这种转变是重大的,但需要从更高的层面来看待,才能看到它到底有多包罗万象。“多年来,作为一个行业,我们一直在努力制造更好、更快、更新的芯片,”Vtool.[1]前数字设计经理亚历山大·米贾托维奇(Aleksandar Mijatovic)说“随之而来的是一系列问题,当我们把技术推向极限时,这些问题就会出现。有时它会打破边界,去到不该去的地方。这意味着,如果你试图使用最大频率在芯片上实现最大密度,很可能在给定技术的可能性的边缘工作,你有时会打破它们。但另一方面,这不是工程师的错。我们都知道这一点,但市场要求更好、更新、更快。”

经济学的负担也在向左转移。尽管这种动态在某种程度上一直存在,但随着芯片制造商努力控制成本,这种动态受到了更密切的关注。


图1:每个进程节点的SoC成本以百万美元计。来源:节奏

“现在有些公司说,‘我们不想采用最新的工艺。我们希望它是可靠的。我们不想太频繁地更换芯片。’这并不是什么新鲜事,只是重点已经转移了。”“很多公司都在用非常过时的技术生产芯片。整个汽车芯片制造工作都是用过时的技术完成的,因为它们足够好,它们已经被证明是可靠的,而且没有太多的惊喜。通过追求新的和最好的,我们忘记了很多时候我们并不需要最新的流程节点。这实际上不是必需的。”

鉴于汽车、医疗、工业和数据中心应用程序,这些考虑因素变得更加复杂,这些应用程序存在不断上升的芯片成本、对更长的寿命的需求、令人望而却步的更换成本以及出现问题时的潜在责任。

哈桑说:“当我们开始讨论在汽车应用中使用电子设备时,确保这类故障不会发生变得更加重要,即使在更长的或更短的时间内都不会发生,并确保对其进行解释。”“此外,这意味着在设计上有很多保密措施。”

与此同时,从汽车到机器人再到无人机,自动化程度越来越高,可靠性已成为头等大事。

安全问题
与可靠性紧密相关的是安全性,特别是在汽车、医疗、工业和军事/航空应用领域。

Olivera Stojanovic,项目经理Vtool他回忆说,在一次安全相关的会议上,最终的结论是,如果黑客能把你放在车里,那么安全可能比安全更重要。“这时安全就变得比安全更重要了。”

Mijatovic指出,当很少有设备连接到互联网时,这就不是什么问题了。“不仅是我们的个人电脑和手机,还有冰箱、微波炉和我们家里的暖气。我们把所有东西都放到网上。”

所有这些都增加了设备的复杂性,这反过来又需要更多的验证和更好的兼容性。

Mijatovic说:“从设计验证的角度来看,你可以把每一个额外的需求作为你的规范中的额外一层。”“该规范并不意味着设备必须只执行功能。它需要可靠地这样做。它需要准确。它需要安全。所有这些都可以定义为功能,并将在最终实现为功能。您将使用更少错误或更少黑客攻击的体系结构,并且您将进行安全检查。最后,它适用于协议,以及从一开始就考虑到的安全性或可靠性概念。这推动了另一套架构方法,它将在各个方面花费更多的精力。”

持续的监控
这些可靠性问题远远超出了汽车领域。Hassan说:“我们已经开始看到,在其他应用中,可靠性设计和可靠性验证变得越来越重要。”“我们已经看到许多EDA供应商与Compact Model Coalition等组织合作,从仿真和建模的角度解决电路设计所需的可靠性问题。”

紧凑模式联盟开发了一种用于老化和模拟的标准接口,称为开放模型接口,它为铸造厂或任何设计公司的各种小组提供了一种方法,可以将老化模型集成到机械退化、热载流子注入(HCI)等机制中负偏置温度不稳定性(NBTI)在该接口内。它还使他们能够使用EDA工具运行模拟,并捕获设计在5年或10年后的行为,或产品的预期寿命。

哈桑说:“这项工作的目的是通过运行这种分析,设计师将不需要过度设计,因为有了这种老化模拟。”“现在他们可以看到并预测他们的设计在一定年限后的行为,并可以将他们的设计推向极限以获得性能,但不会留下利润空间。当他们开始使用它时,它实际上可以在他们的电路和设计中添加一些补偿技术。”

所使用的一些技术包括创建片上监视器和传感器,以检测操作过程中设备性能的任何退化。有了这种传感,可以应用补偿来适应这种退化,以避免设计的整体性能退化。

额外的监视器可能会增加设备和后续产品的面积,并消耗额外的功率或影响性能。但在某些情况下,拥有这种监测和补偿技术可以确保纠正行动的发生,而不会造成伤害或服务中断。

衰老和压力
虽然老化和各种类型的应力(机械、电气、热)是不可避免的,但能够预测这些影响会对器件的性能达到规格的时间产生重大影响。做出这些决定的关键因素之一是了解芯片将使用的环境。

Digital & Signoff集团高级产品管理总监Brandon Bautz表示:“汽车是我们进行分析的传统领域,例如我们如何对这些压力环境进行建模,以及我们如何让设计工程师对他们的部件在未来15年的运行充满信心。节奏.“在一辆车里,我需要我的设备运行10年,但我只需要它消耗一定的电量,否则我的电动汽车就走不了那么远。在可靠性和部件性能之间有一个平衡。我如何获得更准确的分析,以便更清楚地了解我的部件的性能和必要的可靠性?尤其是从数字角度进行的衰老分析,已经有一段时间了,我们发现这是一种悲观的看法。但考虑到我们10年前,甚至5年前拥有的工具,这是我们当时需要做的。”

然而,考虑到汽车行业对硅的依赖程度如此之高,也有许多新的领域出于成本原因寻求高可靠性。鲍茨说:“你可以让一个部件非常可靠,但它可能无法按你需要的方式运行。”“成本、性能、面积和风险之间的权衡变得越来越激烈,因为这些部件本身更加复杂。因此,需要进行的分析类型更加复杂。保护和确保事情是可靠的是好的,但基于我们所做的一些研究,以及我们在表征和分析算法上所做的改进,我们已经展示了客户由于这些旧方法而留下的利润率百分比。通过更准确的分析,设计团队将能够平衡可靠性和性能。”

这为更多的上下文分析打开了大门,这反过来又可以对可靠性产生重大影响。

“我们首先要了解过去20年的事情是如何进行的,并认识到10年前有限的计算能力无法真正捕捉问题的本质。在这种情况下,我们指的是衰老,以及这种影响对衰老的压力依赖性,”鲍茨说。“通过将两个部分放在一起进行数字分析,表征过程可以在单元水平上捕捉设备的性能。然后我们查看设计级别,并在设计上下文中观察特定的单元和设备性能。如果将特性描述与时序分析结合起来,为设计师提供这种准确性,更具体地说,为设计师提供他们的电路在整体设计背景下如何工作的见解,那么通过将电路置于设计背景中,我们就可以分析设备的实际应力。因此,我们可以更准确地分析老化对设备的影响,并了解它如何影响设备的整体时间。”

模拟可靠性问题
这还只是数字设计。模拟设计也有其自身的挑战。

今天,几乎所有的芯片都有模拟其中的内容。Cadence公司定制IC和PCB集团的产品管理总监Jay Madiraju表示:“即使在拥有数百万个门的产品中,仍然有一些模拟器件,而且这个数字还在增加。”“模拟设计团队关心的一件事不仅仅是功能,即他们设计的部分或块将与巨大的数字逻辑接口。他们想知道它是否可靠。”

可靠性在模拟方面有多重含义。“当你看到经典的浴缸曲线时,你什么时候才能说产品可靠?可靠性的概念,到底意味着什么?这取决于它是否随着时间的推移运转良好。”“这绝对是模拟人员所关心的问题。那么,随着时间的推移,电路是如何工作的呢?情况肯定会变得更糟。多年的经验告诉我们这一点。但有多糟糕呢?具体来说,载波迁移率、阈值电压和其他对整个电路正常工作至关重要的器件特性是什么样子的? How does it degrade over time, and how can I predict that before the part goes out?”

虽然老化的技术在模拟中已经存在了几十年,但在过去几年里,它们已经改进到包括任务配置文件。

他说:“在任务配置之前,工程团队模拟了最坏的情况。”“‘这将是我最糟糕的情况。这个芯片要进入一辆车。我假设这辆车会一直在120度的高温下行驶。我如何模拟这种情况?他说,你必须假设这些最坏的情况,使设备可靠,但这样做的意外后果是过度设计、过度裕度和保护带。你将如此保守地设计,以至于性能会受到影响——不同方面的性能,如速度、计时和电源泄漏,芯片应该如何表现的所有不同方面。任务配置文件有助于解决这一问题,因此可以定义不同的条件,包括温度、电压和其他随时间变化的条件。你可以说有些时候这些部件有不同的应力模式,或者在这个操作下,比如当它经过校准过程时,它会承受多大的应力。压力导致退化。 It looks different across different modes.”

另一个方面是制造可靠性,在模拟世界中,这意味着几件事。“一个是时间上的退化。另一种是在制造过程中发生的缺陷,没有经过测试,比如零件已经出来了,在向原始设备制造商发布之前已经进行了初步测试。例如,在汽车领域,有些部件逃过了这些测试,客户会看到它们。汽车OEM将会看到这些问题。这是一个大问题,也是人们绝对关心的可靠性的一个方面。”

这就是模拟故障模拟的用武之地。这类似于DFT在数字方面,在芯片被粘出之前,在验证过程中注入故障。“您可以查看哪些错误会逃脱,哪些错误会影响输出,哪些错误不会影响输出,然后您可以尝试获得覆盖率测量。您正在使用各种测试来执行设计。我的考试够好吗?我都听懂了吗?您希望在注入错误时看到的是错误的输出。最终,所有这一切的目标是看看当我使用这些电路时,使用这些测试集,我是否捕捉到了我需要的一切,以便当零件出故障时,客户不会发现错误?制造过程会产生问题。您是否测试了所有这些问题?这是可靠性的另一个方面。”

电热热效应是模拟领域中另一个日益重要的方面,而自加热模型所缺少的是热量对相邻或附近设备的影响。这需要电热模拟。

他说:“以前,工程团队只会进行热模拟,测量传播效应,然后根据它如何影响功率将信息发回模拟,这是电气模拟、电路模拟和热之间单向流动的一部分。”“现在,越来越明显的是,这对于现代芯片和高压设备来说是不够的,当然还有汽车领域的芯片,以及受高压条件影响的工业芯片。你需要一个综合的方法。这种反馈效应需要在单个模拟中建模。”

可靠性和内存
内存增加了它自己的可靠性,因为内存的选择可以影响从功率到面积的一切。这一点尤其明显动态随机存取记忆体,在哪里选择高带宽内存或GDDR会对内存在其他组件上下文中的行为产生很大影响。

“与DDR、GDDR或LPDDR相比,HBM设备的功耗更低,需要处理的物理接口也更少,”内存接口IP at的产品营销经理Brett Murdock说Synopsys对此.“你如何在SoC上实现它们就像狂野的西部。你想做什么就做什么。你可以把一个完全线性的PHY放在模具的一侧,你可以绕一个角,你可以把它自己折叠起来。有无数种方法可以实现这个物理接口。但是对于HBM,您将向下放置一个HBM多维数据集,JEDEC已经准确地定义了该多维数据集上的凹凸映射的样子。这意味着,虽然在颠簸的位置上可能没有那么大的灵活性,但它相当于更好的可预测性和可靠性。对于插入器和如何将东西连接在一起有一些不同的选择,但在一天结束的时候,如果我看看GDDR, LPDDR, DDR,我可以构建一百万个不同的板,以一百万个不同的方式连接它们,导致一百万个不同的实现,以及一百万个不同的机会,让某人把事情搞砸。而对于HBM,你放入PHY,你放入设备,对于如何在两者之间放置中间体没有太多的可变性。SoC和HBM设备之间将有最小的间距规则,仅此而已。”

在任何可能的情况下,重复过去的工作可以确保它在新的设计中也能工作。默多克说:“影响可靠性的一个因素是你做某件事的次数。“我们为每个客户做同样的事情,或者几乎是同样的事情,这意味着我们真的很擅长。这是经过考验的事实。如果我知道它适用于AMD和他们出货的数百万个单元,为什么它会对我们第一次销售HBM的新AI客户有任何不同呢?我们不需要重新发明任何东西。”

变异
变化是影响可靠性的另一个方面,了解其在高级节点和高级封装中的影响尤为重要。有许多不同的原因导致变化,从材料中的污染物和CMP的剩余颗粒,到模移期间包装和不一致光刻技术.在什么情况下它们会产生缺陷,以及如何在设计阶段解释它们仍然是一个挑战。

西门子EDA AMS验证产品PLM软件主管Sathishkumar Balasubramanian表示:“设计团队正在意识到,他们需要对设计中的变化采取一些措施。”“人们围绕这个问题讨论了不同的概念,包括稳健性和可靠性,但归根结底,所有这些都意味着同一件事,即客户希望他们的设备无论在哪里投入最终产品,都能工作,以及他们希望它在给定的合理时间内工作多长时间。”

Balasubramanian说,这是非常关键的,因此变化开始被作为一个高西格玛要求,并使其成为流程的一部分,在设计流程的早期就开始使用库组件。“他们希望确保这些组件是坚固的。例如,在一个标准库中,他们想知道对于给定的标准单元库,对于一个特定的过程,它满足所有不同的pvt,以及更广泛的范围,并且仍然满足3到7西格玛。”

结论
在设计-制造流程的最左侧,将所有这些部件组合在一起是一项复杂的工作。实际上,过去在制造业中可以固定的东西已经不够了。现在它必须更早地发生,这意味着设计团队现在正在努力解决通常为流程工程师保留的概念,并且流程工程师正在将数据反馈给EDA供应商,以便对工具进行调整,以及新功能的愿望列表。

可靠性现在是一个普遍的挑战,从现在开始,整个供应链都需要勤奋,从最初的设计到现场的产品监控。

Aleksandar Mijatovic在采访结束后离开了Vtool。


1评论

伊兰Weis 说:

非常有趣的

留下回复


(注:此名称将公开显示)

Baidu