中文 英语

变异性变得更有问题,更多样化

增加的密度、异构设计和更长的生命周期使得在设计过程的早期减少变化变得至关重要。

受欢迎程度

随着晶体管密度的增加,无论是在平面芯片还是在异质高级封装中,工艺可变性都变得越来越成问题。

在纯粹数字的基础上,还有更多的事情可能出错。“如果你有一个500亿个晶体管的芯片,那么就会有50个地方发生十亿分之一的事件,”罗伯特·艾特肯(Rob Aitken)说Synopsys对此的家伙。

如果英特尔最近预测到2030年晶体管数量达到一万亿,那么工艺变化将呈指数级增长。但可变性也变得越来越复杂和难以评估,因为可变性的来源在增加,在某些情况下,芯片的寿命预计会比过去更长。此外,并非高级包中的所有组件都是在同一节点上开发的,在某些情况下,它们甚至不是由同一代工厂制造的。

“有了今天的soc,你可以在一个芯片上有不同的芯片,它们可以完全采用不同的工艺技术,”Pradeep Thiagarajan说,该公司的首席产品经理西门子数字工业软件.“这在各个过程中引入了一个全新的变化水平。”

图1:基于细胞密度的变异规划。来源:西门子EDA

图1:基于细胞密度的变异规划。来源:西门子EDA

可变性问题可能是复杂而微妙的,它们可能是附加的。因此,虽然任何问题本身都可能是问题,但在高级节点和高级包中,它们可能会混合在一起。这是显而易见的无声数据错误,例如,基于制造缺陷。但它们只是偶尔出现,而且只是在按一定顺序进行一系列特定操作之后才会出现。

“考虑DVFS和binning,”艾特肯说。“从历史上看,绝大多数设备都处于发行版的中心位置,在它们出现故障之前,必须发生一些非常糟糕的事情。你也有一些非常边缘的设备。任何事情都会让他们翻车。如果您正在进行DVFS或类似的工作,那么您的目标是将尽可能多的芯片推到这个边缘位置。然后你就有了一个更大的种群,一些东西可以改变和破坏它。例如,有一个电阻缺陷,使设备慢一点。当你测试它的时候,你甚至不知道它在那里。但当你运行设备一段时间后,由于各种影响,电阻可能会发生变化,然后突然失效。”

一种试图避免这一问题的传统策略是建立考虑随机错误的裕度。然而,增加额外的电路会影响高级节点的性能,并且会降低能源效率,因为信号需要通过越来越细的电线进一步驱动。这也会增加热量,因为这些电线中的电阻会进一步影响性能。

西门子EDA首席项目经理WeiLii Tan表示:“解决这个问题的正确方法是确保验证更加准确,从而将所需的过度设计降至最低。”

工程师需要建立模型并监测效果。但即使这样也不够。为了最大限度地提高可靠性,公司必须集成芯片上的监控。Aitken说:“我们已经从‘巨大的边际/不需要关心’的情况,到非常仔细地校准的边际,到在系统运行时实时观察问题。”

片上监控市场也随之增长。曾经由晶圆代工厂和osat为特定用例专门建造的片上监视器,现在已被引入proteanTecsSynopsys(2020年通过收购Moortec)和Siemens(2020年通过收购UltraSoC)等。

协作
所有这些都导致铸造厂和EDA厂之间的合作日益紧密。公司产品管理总监Jayacharan Madiraju表示:“晶圆代工厂拥有通过模型定义晶体管行为的特性。节奏.“由模拟器来实现模型,每个模型的行为是通过模型参数为该流程节点定制的。每个模型都有参数,代工厂会给你一张‘模型卡’,把它们列出来。”

附加的参数包括处理诸如应力之类的问题,由于变化可以将潜在缺陷转化为实际缺陷。这些参数可以直接添加到模型卡中,也可以放入单独的模型库中,例如老化的模型库。

Cadence产品管理高级集团总监Brandon Bautz表示:“EDA供应商和代工之间的关键关系是SPICE模型,因为许多可靠性和可变性因素都是由代工直接用行业特定的SPICE模型语言建模的。”“这为所有类型的模拟和混合信号组件的仿真和验证提供了依据。在数字方面,我们使用同样的模拟能力。事实上,我们已经将快速SPICE模拟技术嵌入到我们的许多工具中进行描述,从而将可变性信息升级为另一种行业特定格式Liberty,该格式广泛用于数字领域的签名。对于可变性以及较小程度上的可靠性如何建模、描述,然后最终部署到数字注销领域,有一个完整的流程和格式层次。”

物理是不可忽视的,但设计师在降低整体可靠性和可变性方面发挥着重要作用。

西门子的Thiagarajan说:“这一切都归结于建立一个强大的测试用例,而这个测试用例必须增长。”“你将有更大的测试用例,覆盖不同的物理提取区域,跨越位置,你必须模拟这些。你说的是需要考虑到更大的元素容量,以及一个非常智能的、能感知变化的模拟系统。你需要结合更好的测试用例和智能模拟器。”

数据
如果是工程和物理造成的问题,更好的数据分析可以帮助将问题最小化。

艾特肯说,统计分析可以是经典的GIGO(垃圾输入,垃圾输出)。“重要的是要记住,不同的领域,如内存和数字逻辑,涉及不同的价值观。在SRAM中,有数百万条相同的路径。你要看的统计数据是大量相同事物的统计数据。你实际上要找的是在大量sigma范围内的偏差,比如5或6 sigma。你在大学里学的所有统计学都关注分布的中心,而不是尾部。对于反面,应用不同的统计方法,如极值理论。这就是记忆的边缘,这就是你如何确保你知道当人们设计和销售它们时,它们会以你预期的方式工作。”

准确评估数字逻辑中的可变性问题需要一种不同的方法。他说:“如果一个数字路径失败了,很可能不是因为该路径的一个元素超出了规范12西格玛。”“这是因为所有或许多元素都有点超出规格,但方向相同。随着时间的推移,我们处理这种情况的方式也在不断演变。现在有一种POCV(参数化片上变化)表征方法来描述变化及其变化方式。有趣的是,无论是记忆极值理论,还是POCV和数字逻辑,变化都是不对称的,所以你没有这种美丽的钟形曲线。”

相反,虽然可能存在一些遵循钟形曲线的基础物理,但其效果却不是这样,结果是分布的微妙不同部分。艾特肯说:“这些工具向你隐藏了很多东西。“你已经得到了一个由代工生成的模型的组合,该模型进入了一个标准单元库,并对其进行了描述,以在POCV中建模,将其描述限制在一个操作感兴趣的区域。然后计时工具必须能够读取该模型,理解它,并以合理的方式应用它。”

最终,复杂问题的答案将是高级统计和实际选择的结合。

“芯片上有数百个签收角,你必须跟踪温度、金属厚度、电压和其他相互作用的变化。所以你看看所有这些限制空间的极端行为,因为只要设计存在于空间中,那么它就应该是有效的。你必须确保你的图书馆电路在边界上有最坏的行为,”艾特肯说。

对于像NAND门这样的东西,这并不重要。另一方面,对于人字拖来说,这很重要。

“如果你在设计触发器时不小心,你会发现它在最坏情况下的操作不是在它的最小电压或最大电压。它介于两者之间,这意味着你所有的角落方法开始崩溃。你想设计你的电路,让它在一个极端或另一个极端失效,但不会在中间某个地方失效,因为那样你可能没有模拟最坏的设计点。实现这种情况的一种方法是CMOS温度反转,在其阈值电压附近工作的电路在较高的温度下会加速,而不是像我们通常预期的那样减慢。当你同时有N和P个设备试图给一个节点充电或放电时,这就成为一个问题,一个显示出温度反转,而另一个没有。这可能发生在保持装置,传输门,甚至大型泄漏晶体管连接到一个小有源晶体管。一般来说,避免这样的电路以避免麻烦是最好的,但当它们无法避免时,就需要仔细设计。”

为模拟和预测变率,主要应用的统计方法是蒙特卡罗模拟(MCS),该方法采用重复随机抽样的方法,以获得一系列结果发生的可能性。与具有固定输入的预测模型相比,它具有许多优点,例如能够进行灵敏度分析或计算输入的相关性。

图2:使用蒙特卡罗和基于灵敏度分析的表征方法。来源:Synopsys对此

图2:使用蒙特卡罗和基于灵敏度分析的表征方法。来源:Synopsys对此

“你获取输入变量,然后检查输出变量。基本上就是蒙特卡洛,”Cadence的Madiraju说。“你拿着模型卡,添加特定的模型参数。例如,晶体管的迁移率,他们会说它的标称迁移率是0.5,但它可能是±2%的变化。当你进行蒙特卡罗模拟时,它需要生成样本来显示SDK范围内的变化。”

西门子的Tan表示,蒙特卡洛可以通过简单的、重复的蛮力来应用,也可以通过机器学习来改进。“有时我们有电路设计师或芯片公司以6西格玛为目标。从统计学意义上讲,这意味着大约10亿分之一的失败。如果我们使用暴力方法,这意味着我们需要检查10亿次。为了更有信心,我们实际上需要运行大约100亿个样本,看看我们的电路是否会失败10次,因为如果你做了一次,那么它可能会发生,也可能不会发生。当然,即使我们拥有今天的计算资源,也不可能进行数十亿次模拟。”

机器学习允许工程团队运行更少的模拟,检查预测输出是否正确,然后运行更多的模拟,以获得完整概率密度函数的准确视图。

“在更高的sigma区域,你也会得到长尾,这使得一个不可行的任务变得可行,”Tan说。“你可以在日常生产流程中获得高西格玛及格/不及格。”

结论
热问题是导致变异性的一个主要因素,随着3D设计的增加,热问题也越来越多,EDA工具提供商正在更多地考虑这些问题,但这是一个双向的问题,代工方面仍然需要更多的考虑。

Cadence公司的Madiraju说:“现在有一些参数可以让模拟器模拟自热效应。”“但是,如果他们想进一步了解热传播和其他问题,那么从铸造厂获得的技术文件或信息就无法帮助你创建热传播模型。我们无法获得的是热能技术文件,它告诉我们材料的性质和所有与这个过程有关的东西。公司拥有这些信息,但它们没有能够轻易提供给我们的形式。”



留下回复


(注:此名称将公开显示)

Baidu