中文 英语

驯服复杂芯片中的角爆炸

设计弯道的数量和严重程度正在超越分析的界限,但新的方法正在出现。

受欢迎程度

在设计团队必须考虑的弯角数量、分析成本和处理它们的边际之间存在微妙的平衡,但这种权衡正变得越来越困难。如果一个芯片被探索了太多的角落,它可能永远不会被生产出来。如果没有开发足够多的角落,可能会降低产量。如果增加太多的利润,这款设备可能就没有竞争力了。

在半导体芯片中,角是可以影响操作的参数的极值,如温度或电压。设备必须在该参数的可能范围内进行验证,以便所有制造的设备都能运行。随着时间的推移,器件变得越来越复杂,比如finfet的引入。它们也变大了,在芯片上造成了更多的变化。它们变得更加复杂,在一个封装中使用更多的电压域或集成更多的芯片。

由于所有这些因素的综合作用,必须考虑的弯角的数量正在增加,这些弯角的范围在总范围中所占的百分比也越来越大。每一个都有一个不同的轴,这些轴的组合需要探索。这就是所谓的角落爆炸。

“当我们谈论工艺弯道时,我们主要谈论两件事——随机变化和设计的稳健性,”位于德国的Digital & Signoff集团的产品营销组总监Hitendra Divecha说节奏.“大多数挑战都是随机变化,也就是制造问题。角落开始爆炸,因为你必须照顾由于添加多层而带来的悲观情绪,整个制造过程在本质上变得更加复杂。”

还有更极端的角落。“这有两个部分,”罗伯·艾特肯(Rob Aitken)说Synopsys对此的家伙。“是的,有更多的角落被创造出来。但更大的问题是,就总范围而言,拐角越来越大。这些轴中是否有一个比另一个更重要或更困难?这样做的净效果是什么?当我们考虑到电压变得如此之低,以至于所有的东西都接近Vt时,那么你从制造中得到的任何类型的变化都占总范围的更大比例。”

时间可能是另一个复杂因素。“从一个模具的一个位置到另一个模具,你会有变化,”Pradeep Thiagarajan说西门子数字工业.“晶圆内部的模之间存在差异。然后你会得到不同批次的晶圆。此外,有许多批次在不同的时间点生产,具有不同的工艺成熟度水平。设计师需要在设计中适应所有这些跨越区域和时间的变化,以确保在录制之前具有强大的功能。”

最近,更小的几何形状正在产生与设备老化相关的实际问题。Synopsys的艾特肯说:“年龄的增长进一步增加了局部变化的因素。”“当你刚从晶圆厂起步时,晶圆之间会有一些变化,设备之间也会有变化,所有这些都由不同的型号决定。但当你考虑老化时,你会增加与工作负荷相关的影响,这些影响会以不同的方式影响你电路的不同部分,你将很难提前预测。”

设计健壮性已经成为一个多维的噩梦。Cadence的Divecha说道:“设计团队必须创造出更好的产品,但他们也必须确保设计能够承受所有这些变化(见图1)。“如果他们过于悲观,他们就会倾向于过度设计,这可能会让他们陷入竞争对手正在生产性能更好的产品的境地。如果他们过于乐观,他们实际上就进入了产品可能无法产生收益的领域。”

图1:设计鲁棒性的多个维度。来源:节奏

图1:设计鲁棒性的多个维度。来源:节奏

这些问题将继续恶化。“当你沿着摩尔阶梯往下走,你会发现更多的是二级或三级影响,”斯威宁(Marc Swinnen)表示有限元分析软件.“这些正逐渐接近你需要考虑的一级效应。”

电压问题
对于每个过程节点,电压都降低了。虽然这有许多优点,如降低功率,但它也有缺点。“我们看到了主要工作电压非常接近开关阈值的库变体,”Divecha说。“这导致了更多的变化,因为电流更小,输出通常不会切换,直到输入波形在尾部区域。这导致延迟变化增加。超低电压操作对整体可变性有显著贡献。”

但这变得更有问题了。“几代人以前,电压降是一个容易处理的问题,你可以把所有的电池都控制在一个合理的窄电压范围内,”Ansys的Swinnen说。“但现在,电压——尤其是动态电压降——变得更加极端。就像你在整个芯片上有温度变化一样,你现在在整个芯片上有电压变化,一些电池会变慢,因为它们看到一个非常弱的电压供应,而另一些电池会更快。这增加了你的困境。现在你必须为每个温度和过程做一个,现在你也必须为电压做一个。”

降低权力的愿望又增加了一个问题。西门子的Thiagaraja说:“芯片或封装中的不同区域或子系统可能具有完全不同的电压域。“这意味着它们可能具有完全不同的范围,具有不同的标称电压,或者它们实际上具有相同的标称电压和范围,但它们可以由不同的独立电源供电。这些独立的电源可能处于不同的极端。因此,即使在一个芯片中,如果一个IP与同一芯片上的另一个IP连接,并且它们使用不同的电压域,那么就引入了另一个问题级别,这需要进行模拟。即使算过所有的角,也只能得到极端情况。你最终要做的是统计分析。”

对年龄的考虑
虽然老化发生在所有半导体器件中,但直到最近,随着几何形状变得越来越小,它才成为一个问题。今天,一家半导体制造商将提供模拟老化效应的库。然后,这些库可以用来查看设备在5年或10年后的表现。

然而,这种方法存在问题。艾特肯说:“如果你制造了一个芯片,然后把它卖给其他正在使用它的人,你实际上是在猜测他们会用它做什么。”“这意味着你必须解释它,要么通过边际计算,要么通过猜测,要么通过给出一个属性,说明这个东西可以老化X %,但它仍然应该工作。然后,他们把它作为一个练习,让任何购买它的人来确定它的稳健性。”

在不知道如何使用这个装置的情况下,你就会严重瘫痪。“如果你的芯片有不同的老化,这意味着在从重度使用区域到轻度使用区域的路径上,你的持有量和设置将随着时间而变化,”Swinnen说。“这并不是说它们都会变慢,也不是说它们都会变快。一个可以变慢,而另一个保持快速。你可能会遇到停留时间违规或类似的情况。”

差异老化意味着你需要模拟一些活动的想法。活动越来越成为开发过程的所有阶段的一个因素,从架构到设计和制造,现在进入操作使用。

这是合理的妥协吗?“在图书馆中建模是为了减少角落的数量,但并不是完全模仿现实世界中会发生的事情,”Divecha说。“如今,大多数公司都在过度设计,EDA供应商正在开发统计模型,我们为客户提供一种方法来表征包含各种应力参数的库。我们将越来越多地进入统计领域,而不是做每件事。”

先进的包装
先进的包装添加一个新维度。现在有多个模具安装在彼此或基板上。“如果有一个关键路径起源于一个骰子,进入另一个骰子,然后最终结束于第三个骰子,你如何确保这些骰子之间的变化是有效的?西门子(Siemens) AMS产品管理和营销主管萨蒂斯•巴拉苏布拉曼尼亚(Sathish Balasubramanian)问道。“人们选择了关键的路径——运行SPICE是一项非常手工的工作——他们在一个骰子中进行变化,给边界留出余地。然后他们确保在给定的PVT频谱中,整个路径都在这个范围内。”

目前常用的设计技术正在尽量减少这种情况2.5 d方法。Aitken说:“在局部集群之外,系统中元素之间的大部分通信实际上是异步的,因为它需要一定数量的周期才能发生,而系统不会等待。”“在3D中构建东西最明显的方法是避免同步传输,但你可能想要利用大量的芯片之间的互连,并利用它们做一些事情。这可能会给你带来很大的好处,但它的代价很小,没有人找到正确的答案。也许你使用了某种ML角缩减方案,说有10000个角,但只有50个左右是重要的。或者你可能会做骰子匹配,你要确保如果我选的骰子叠在一起,它们会在同一个角落里。然后我就可以忽略这一万个角只关心其他的角。这两种方法都是合理的,但我认为目前还没有人选定其中任何一种。”

这可能会添加一个必须跟踪的新属性chiplets.“我们可能不得不考虑批次之间的差异,”迪韦查说。“这是在晶圆与晶圆之间、晶片与晶片之间以及晶片内部变化的基础上。我们需要提出一个模型,本质上是统计的,提供给设计师,这样当他们签字时,他们就不必看所有这些角落。在过去,晶片代工厂会退缩,因为他们认为这会暴露太多他们的知识产权,而这将成为他们的竞争对手,但今天这变得至关重要。”

减少角落
有一些技巧可以控制弯道的数量。Aitken说:“这是EDA工具的结合,加上库,再加上库的特性,再加上设计师对他们所要求的东西的理解。”“每个人都有自己喜欢的减少弯道的方法。一个被关注的角度是使用AI/ML来确认你正在做出正确的决定,并确定你所关心的角落。然后你可以扩展这种能力,这样你就可以在这样那样的点上,或者在这些不同的点上,使用ML来生成你所关心的新的库角。”

理解设计很重要。Swinnen说:“一种技术是控制角落。“有些角落会支配其他角落,这意味着这个角落总是会比那个角落的任何组合更糟糕,所以我们可以放弃那个角落,只考虑这个角落。这可以减少你需要观察的角的数量,但你最终还是会得到很多角。电压降的另一种方法是对空间进行蒙特卡罗分析,在其中捕获统计概率。你会得到一条曲线,显示它满足要求的概率。工程师们不太喜欢它,因为它不能给他们一个是/否的答案。但即使从库中查看计时数字,它可能会说这是一个4ns的延迟,但这是一个分布。我们可以任意选择3作为截断点,但它总是一个分布。这就是控制组合爆炸的方法。 You just explore it statistically.”

另一个正在出现的解决方案是使设计更具变化容忍度。艾特肯说:“如果你想要建立一个适应性强的系统,能够实时调整电压和/或频率,并根据显示器显示的信息进行调整,你需要做很多事情来确保它能正常工作。”“你必须确保你已经放置了足够多的监视器,你正在监控正确的东西,你正在进行相应的调整。从本质上讲,这个教训是你想要尽可能地接近失败的悬崖,但你不想越过它。克服它并试图从中恢复过来,这比一开始就不失败要困难得多。”

但这是有限度的验证可以做到。Thiagaraja说:“验证团队无法模拟其设计的每个不同方面或芯片的不同一端的所有可能的功能场景。”“他们只能在他们的测试方法上投入这么多,而且总是会有使用场景,以及温度考虑,自热情况,电压情况,这些都不能完全模拟。否则,你永远也拍不出你的录像带。”

正确的解决方案必须考虑经济因素。“开发物联网设计的人可能会很好地运行所需的最小数量的角落,”迪韦查说。“他们可以只做边际交易,然后侥幸逃脱。在另一个极端,客户做移动或高性能,这些家伙正在寻找300,400个角落,他们签署了,这是因为对这些设备的要求。他们必须考虑自己的成本,以及计算成本。这意味着进行一系列分析所需的cpu数量,内存需求。有些客户不一定负担得起。”

结论
越来越多的工程师必须探索数量迅速增长的角和这些角的轴的数量,参数的范围也在增加。先进的设计已经远远超出了边际利润所能处理的范围。虽然行业正在探索一系列技术,以确保最重要的角落被识别和分析,但在这个领域已经没有任何绝对的东西了。适应性强的系统可能是唯一可行的前进道路。



留下回复


(注:此名称将公开显示)

Baidu