中文 英语

定义最坏情况的挑战

芯片最坏的情况是什么,你应该担心它们吗?当然,实际情况要比这复杂一些。

受欢迎程度

芯片内最坏的情况是无法定义的。但如果你错过了导致芯片故障的极端情况会发生什么?

随着半导体市场竞争日益激烈——初创公司和系统公司现在正与成熟的芯片制造商竞争——没有人能够考虑理论上最坏的情况。相反,他们必须聪明地清理空间,以确保他们只处理现实的场景。问题是有大量的变量促成了最坏情况的概念,其中一些显示出不同程度的相关性,而另一些则是独立的。它们涵盖了架构问题,直到实现的最小细节。所以对于一个产品来说,最坏的情况可能是关于吞吐量或延迟,或峰值功率或总能量,或最大化产量。

与许多形式的分析一样,不完全模拟通常在早期流行,随后是被证明过于悲观的统计技术。然后,更可控的方法接管。今天,业界正试图定义这些受控方法是什么。当软件被添加进来时,它就会呈现出不同的复杂程度,大约100家人工智能公司押下巨额资金,假设它们比下一家公司更了解这个问题。

今天,这个话题对越来越多的人来说越来越重要。“理论上,最坏的情况可能会炸飞任何芯片。Mentor是西门子旗下的企业.“这变得很难定义soc,这是一个有趣的讨论。你如何产生一个现实的最坏情况?”

这个问题有两个部分。首先,物理实现和制造如何影响最坏情况的概念?第二,在设计中最坏的情况是什么?

汉德说:“你真的必须把它分成两个部分。“在最坏的情况下,事情会随着你的综合、布局和整个实现过程而发生变化。但在活动和逻辑方面,你也有最坏的情况。”

物理和制造问题
在最坏的情况下,会有很多物理因素影响。“其中一些是合规要求,”João Geada说有限元分析软件.“也许你正在处理一个名义上的环境,你必须证明你的芯片在-40°C到120°C之间工作,或者在汽车内它可能需要-60°C到150°C。这些是边界情况。但最糟糕是一个有趣的修饰语。我们知道极限在哪里,但最糟糕的是什么呢?我们通常要处理过程、电压、温度(PVT)包络。有些人用多维空间的角来定义最坏的情况。他们看着这个三维立方体的角落,并假设它们被覆盖在里面。这可能从来都不是真的。”

对于新节点来说,这变得越来越具有挑战性。“结尾Dennard扩展和增加的过程可变性,特别是在finFET节点上,都使最坏的情况变得更糟,”Richard McPartland说,技术营销经理Moortec.“这意味着芯片倾向于运行得更热,芯片上的电压降越来越大。我们确实看到一些设计在挑战极限,有时是在错误的一边。不同的应用可能有不同的最差情况温度,电压和钢筋混凝土角。最坏情况下的功率并不仅仅与最大功耗有关,尽管这自然是一个很好的起点。它还涉及导致温度循环和功率差异的活动爆发,从而导致整个芯片的温度梯度。”

左移位通常被视为一件好事,这是一个领域,它正在成为一种必需品。“我们可以忽略设计,只是说它必须在这种环境下运行,”ANSYS的Geada说。“这忽略了梯度、局部效应等。这是人们过去谈论最坏情况的方式。”

这种简单化的分析在两方面都不成立。拐角是最坏情况的假设是不正确的。中间有一些岛屿,设计可能无法正确运行。

“你假设整个系统在所有维度上都是对称的,”Geada解释道。但它既不是对称的,也不是单调的。对于温度,有一个CMOS效应称为温度反转。由于晶体管导电性与金属导电性的关系,在某些温度下,降低温度会使一切运转得更快。当你把温度降低到某一点之后,你就开始增加金属的导电性。这在一定程度上影响了晶体管的性能。物质开始以相反的方式工作,降低温度会使物质运行得更慢。中间有一个拐点,在这个拐点上系统的性能最差。”

类似的问题也存在于其他流程变化中。只考虑快速进程或缓慢进程可能会掩盖问题,而最坏的情况实际上是一些设备快速和其他设备缓慢的组合。但确保设计在所有这些条件下都能正常工作是非常悲观的。“当你制造一个芯片时,就会产生全球性的影响,”Geada补充道。“特定的生产线可能会生产类似的晶体管,晶圆上的特定位置将有特定的趋势,这是固定的。这些影响中有一部分是相关的,所以你不能把它们视为独立的统计数据。”

制造过程在这里扮演着重要的角色。”过程变化现在是如此之大,设计最坏的情况,包括宽警卫队乐队Moortec的McPartland指出。“移到较小节点的性能优势没有得到充分利用。我们正在探索新的方法,以最小化保护带并优化每个芯片的供电电压。”

Geada的解释表示同意。“如果你接近利润率,下次就会再增加一点。他们会在设计上付出一点代价,但随着你的竞争力增强,你开始考虑非常昂贵的技术,你能从投资中获得最大收益就很重要了。”

这个问题是以前的分析类型是设计和活动不可知的。如今,公司只关心他们的设计是否正确运行,这使得分析更加复杂。

门拓的汉德说:“如果你设计芯片的每个部分都是为了绝对理论上最坏的情况,那么你的利润率就太高了。”“知识产权公司将不得不开始提供系统级服务能力模型.一旦您有能力为较低级别的块进行功率建模,您就可以将它们放入更高级别的系统模型中,并开始运行真实的场景。生活开始变得更容易,因为你不再猜测会发生什么。”

设计和活动问题
只看芯片的法律活动限制了必须考虑的空间,至少在理论上是这样。但事情并没有那么简单。Hand说:“我们可以合理地定义区块级别的最差情况。“我们也可以在子系统级别上做到这一点。但当你进入芯片层面时,软件起着巨大的作用。这变成了一个有趣的挑战——你如何预测今天和明天最坏的情况。你可以通过软件更新来改变你认为最糟糕的情况。”

通过将活动纳入考虑范围,它似乎总是会限制理论上的最坏情况。然而,情况并非总是如此。

Geada说:“设计本身就有活动模式,以及被禁止的活动模式,这些模式带来了它们自身的相关性。”“温度是一个有趣的领域。在一个测试器上,你强迫芯片保持一个均匀的温度。它已被加热或冷却,使其达到均匀的合规温度。整个芯片,在测试仪上短暂的一段时间内,将是均匀的。在实际使用中,它不会处于均匀的温度,因为很大一部分温度将由芯片自身操作产生。当你在处理一个多核微处理器时,处于活动状态的内核会比处于活动状态的内核温度更高。如果你假设温度均匀,你可能会错过工作空间的某个角落,比如热核与冷核的对话。”

在过去,开发过程的各个层次之间几乎没有联系。开发了一大块知识产权不知道该如何使用它,所以只能做最坏的打算。这也发生在子系统级别,其中几个IP块被聚合在一起。但是今天,更复杂的分析工具允许处理一些问题。

“你看便携式刺激(PSS)和分析工具一起工作,你就可以开始考虑那些设计师所知道的最糟糕的情况,并有可能看到它们是否存在于现实世界中。”“他们可以建模,确保它在街区级别上工作,并将这些知识传递到子系统和系统级别,并确保这些交通模式在你将设计结合在一起时得到验证。PSS允许您以自顶向下的方式重用场景,在这种方式下您可以使用场景来测试块,或者以自底向上的方式,在这种方式下您可以为所有较低级别的系统生成最坏的场景。现在,你可以将这些信息合并在一起,构建现实的交通模式,看看你是否能应对这些最糟糕的情况。”

把这些都整合起来需要时间。Geada说:“这类似于静态时序分析的出现。”“一开始,人们通过模拟运行矢量,然后系统变得足够复杂,以至于你永远不确定是否涵盖了最坏的情况。因此添加了自动化,这样在每个单元格中,它会计算每条路径的最小和最大延迟,并在设计中为每条路径的性能包线提供有效的保证悲观边界。然后人们开始问这个问题——这真的会发生吗?业界提出SDC是为了让人们将领域知识插入到系统中,并说某些事情不会发生。设置假路径,设置多循环路径等。”


图1:不同节点和条件下的工艺拐角。来源:手臂

缓解
对于许多设计来说,寻找最坏的情况并不是正确的策略。Moortec公司的McPartland表示:“集成芯片内PVT监控,可以看到芯片上的情况,使设计人员处于更有利的位置,可以在不过度设计的情况下在极限的右侧进行设计。”“用于热管理的策略包括简单的热切断(如果达到一定温度,部分或全部电路被关闭或降低),以及更复杂的DFS和dvf方案,其中工作点和功率方面的时钟频率和电源电压可以控制和下降到一个较低的水平。类似的事情也发生在红外分析中。设计师需要知道哪些需要注意,哪些不需要注意。”

系统节流并不总是一种选择。Geada指出:“系统在严格的实时约束下无法后退。”“如果你控制的是防抱死制动系统或障碍物探测系统,那么不管你的工作温度如何,你都希望它能非常可预测地发射。你没有回旋的余地。但如果我在玩游戏时每秒丢失几帧,我可能都不会注意到。你是否有能力这么做,取决于应用程序和它所受到的限制。”

但他们仍然可以做一些事情。“任何设计,无论最坏的情况如何定义,都必须有一些电源管理汉德说。“你必须验证这些机制,以确保它们有效。然后,如果出现新的最坏情况,问题就变成了,‘你是否有能力改变芯片内部的电源管理架构,或者至少在软件中,自由度是多少?’”

结论
尽管应对最坏的情况是一项重大挑战,但业内人士认为,他们已经很好地解决了这个问题。汉德说:“从核查的角度来看,这些都不太困扰我。“我们有一个合理的处理方法。该行业面临的更大挑战是,当他们将SoC整合在一起时,如何获得必要的知名度。没有人愿意为最终的最坏情况而设计。这是不可制造的,在经济上也不可行的。”

SoC开发团队离极限有多近?McPartland说:“我们看到大多数(如果不是全部的话)SoC团队都在推动极限,以获得最大的性能,无论是最大化人工智能的处理能力,最小化智能手机的功耗,还是最大化汽车的可靠性。”



留下回复


(注:此名称将公开显示)

Baidu