在最新的节点上,不可能正确分析IR drop,导致芯片杀伤问题。
半导体制造技术的发展导致芯片具有更高的功率密度,这导致了芯片上功率分配的严重问题。具体来说,围绕电压降或IR降(从V=IxR)的问题已经变得如此严重,以至于我们已经看到多家公司开始从晶圆厂回收死硅。
例如,最近设计的运行频率为3GHz的7nm芯片在硅中未能达到2.7GHz以上。故障的原因是,尽管通过了所有签收工具检查和方法建议,但电源和地面供电线路上的ir下降过多,仍未被检测到。正是这种不可预测性引起了设计界的关注,这表明我们需要重新考虑IR drop签收的方法。
在详细的层面上,IR降会导致芯片故障,因为如果标准电池和宏的供电电压不足,它们的时间延迟会急剧减慢。这种效应并不新鲜,设计师们多年来一直在处理它。但是在制造业中发生了一些变化,使得现有的验证方法过时了。半导体互连的电阻从28纳米增加到7纳米,几乎增加了10倍,这是罪魁祸首。在7nm以下的节点,这种趋势预计会加剧。相比之下,电容在最近的节点中几乎没有变化。另一个因素是高级节点库对电源电压变化的敏感性提高,特别是在超低电压和接近阈值的操作制度下。高vt细胞受此影响尤其严重。我们曾见过在0.5V电压下仅摆动10mV,延迟变化高达25%的情况。
导线电阻的增加也使得传统的降低红外下降的技术失效。传统的红外降压控制是通过电网尺寸过大和增加去耦电容器来实现的。但是,过大尺寸是一种强力方法,在PPA(功率、性能、面积)中变得过于昂贵,而解耦帽不再有效,因为电阻的增加已经使IR下降成为非常局部的现象。事实上,在局部问题和遥远的电容器之间存在如此大的阻力,以至于任何电流激增的时间常数都太慢,无法帮助局部的瞬时下降。增加的电阻屏蔽使得整体解决方案,如过尺寸和解耦帽,效果较差。另一个后果是局部攻击因子(附近的标准电池,当它们开关时,会导致局部电压下降)的影响被加重,并在IR问题中发挥越来越重要的作用。如果不了解这些局部攻击者的影响,就不可能正确地分析IR下降。
今天的电压敏感库意味着某些路径天生是电压敏感的,因为它们包含的标准单元、转盘和负载的组合。如果合适的一组局部攻击者都在合适的时间切换,将会有一个显著的局部动态电压降,这将导致这些路径延迟与标准延迟计算有很大不同,这些标准延迟计算没有考虑到特定路径周围的特定活动模式。这样的路径可能会陷入时机失败,即使它们最初有大量的积极松弛,也没有人认为它们是“关键”路径。在上面提到的IR定时故障示例中,罪魁祸首是一条完全不是定时关键的路径。事实上,它只排在关键路径的第20万名之后。
这就是为什么我们看到一些在7纳米及以下的设计通过了所有传统IR签收方法,并在硅测试台上失败的原因。
根据这一分析,解决方案的轮廓呈现出来:
上面建议的解决方法并不是一个全新的想法——时间感知IR下降的概念已经存在了十多年。但是大量的数据需要集中在一个地方(完整的布局,完整的STA与SI,所有定时窗口信息,动态IR掉落模拟,无矢量数据生成等)使得这种方法不切实际,特别是如果P&R, IR掉落和STA是由来自不同供应商的3种不同工具完成的。因此,除了在这一愿景中嵌入的详细算法挑战之外,对深度集成的全流程解决方案的迫切需求是压倒一切的。
我有信心,EDA社区将迎接这一挑战,因为他们在过去已经做了很多次,但设计师将不得不跟随和学习设计更智能,更集成的方法,以电源分配和完整性。
留下回复