中文 英语

连接IC设计、制造和现场可靠性

复杂芯片出了什么问题,可以做些什么来修复它们,以及如何在未来避免问题。

受欢迎程度

参会专家:半导体工程公司与英特尔首席工程师Prashant Goteti坐下来讨论硅生命周期管理,以及如何将该领域的设计、制造和设备潜在地结合在一起;Arm的研发人员Rob Aitken;思科首席硬件工程师佐伊•康罗伊(Zoe Conroy);斯坦福大学电气工程和计算机科学教授Subhasish Mitra;以及卡尔斯鲁厄理工学院可靠的纳米计算教授Mehdi Tahoori。以下是这次对话的节选,是在最近的Synopsys用户组会议上(虚拟)进行的。要查看本讨论的第一部分,请单击在这里.第二部分是在这里

SE:我们如何推进硅生命周期管理?

Goteti我们需要标准。整个行业都需要参与进来,学术界也是如此。到目前为止,我们只有一个垂直整合的模型。把传感器放进去的公司,也是检查传感器数据的公司。然后,也许在EDA供应商的帮助下,他们分析数据,然后理解它。但我们不会在这样的世界生活太久。我们将从非常不同的供应商那里获得一些信息。我们将使用不同的数据格式实例化不同类型的传感器。我们会有一些可以共享的标准化。因此,如果一家集成公司能够获取ip,将它们组合在一起,并仍然适当地使用数据,那将是非常有用的。 There’s a gap today. Each company has its own set of solutions, and then they leverage the EDA industry to help out. But there’s really not much standardization in any of this.

密特拉我对所有这些标准化活动都持怀疑态度。通常情况下,标准化成为主要焦点,而我们忘记了我们最初为什么要标准化。真正的问题是我们想收集什么样的数据。

艾特肯:你还需要知道你要用它做什么。所以你可以收集所有这些数据,但你必须对它们做些什么。你可以说,‘好吧,让我们通过这个漏斗,我们会让人们看看,他们会做出某种决定。“但无论他们做出什么决定,在真正影响到他们之前都有很长的时间。如果这是一个软件的转折,那将需要一段时间来为所有这些设备重新分发软件。如果它需要一个全新的架构,那么至少需要几年时间才能有任何东西对它做出响应。而最初报告数据的东西永远不会从中受益。

SE:我们的目标真的只是找出问题在哪里以及哪里将会出现问题,还是增加某种程度的弹性——就像我们处理ECC内存一样,它可以自我修复?

Tahoori:这应该是我们的目标,它应该是一种附加价值,而不是关于谁将对其进行标准化以及谁拥有数据的问题。系统变得非常复杂,下一代的设计非常难以实现。SLM可以提供帮助。如果你有正确的旋钮,我们在定时关闭时无法解决的特殊情况可以自动解决。

密特拉但与此同时,除非你能定位和诊断,否则它不可能有弹性。一般来说,即使对于ECC,实际上也有一些电路决定,'那边,那个比特是错的。它是从1到0,或者是从0到1。用户只是看到一切都在正常工作。

Goteti:这需要实时行动。如果周转时间太长,那就没用了。

密特拉:我不同意。即使周转时间太长,如果这会影响到您未来的架构,它仍然非常有用。

Goteti我们在这里谈论的是两件不同的事情。

艾特肯实际上有三种不同的东西。所以有一个ECC,它对一个即时的问题进行即时的修正。它本质上是在某种灾难中幸存下来,比如电源下降和时钟抖动。然后是适应缓慢移动的变化,比如老化,导致设备随着时间的推移而变慢,但以一种可预测和渐进的方式。这是第二组生命周期能力。第三种是更具有分析性和预见性的——当未知的未知发生时,观察它们,反馈,让别人在将来解决它。

SE:所以你们要从预测分析转向自动修复这个问题?

艾特肯:是的,目标是最终自动修复它。但如果你不能,理想情况下,你会得到一些出错的东西。然后你把它交给聪明的人去解决它。

SE:在这种情况下,SLM更像是胶水,对吗?“好吧,我们知道这块碎了。现在,我们该怎么办?顺便说一句,我们正在关注与这个系统相关的其他一切事物受到的影响。

艾特肯这是一个很好的说法。

SE:那么这会给设计增加多少工作量和成本呢?

康罗伊我不认为它对设计有很大的增加。它更多的是在后端,利用你在设计中拥有的东西。使用这些传感器需要做更多的工作,并在硅和硅生命周期管理中充分利用它们。它创造了一套全新的后硅时代的工作,这是我们以前没有的。作为测试工程师,我们并没有做好SLM的准备。它将成为一项比传统测试工程更大的工作。

Goteti:这也取决于你想要在设计中构建多少智能,以及传感器的本地实现或实例化。所以这确实增加了设计成本。这是毫无疑问的。但成本并不是不必要的,人们意识到他们必须这样做。因此,就像您将添加一些增强性能的东西一样,您还将添加增强SLM功能的特性。

密特拉一个好的目标是大约5%的额外成本。如果我们做得正确,也许很多测试基础设施的设计可以被使用。

Tahoori: SLM是其中的一部分。另一部分基本上是我们目前在芯片上拥有的所有不同支持基础设施的统一。如果我们添加一些智能聚合,SLM基本上可以成为基础设施的超集。但不能简单地将大量数据转移到云端。因此需要一些聚合,这必须作为硬件设计的一部分来完成。

Goteti但是你得小心。我们可以重用DFT(为测试而设计)基础设施,也可以使用DFR(为可靠性而设计)和DFD(为诊断而设计)基础设施。但我们必须确保它们在现场可用。这不是一件微不足道的事情。我们必须谨慎地说,我们可以完全重用我们已经拥有的东西。

艾特肯我们必须认识到,几乎所有这些对象都可以被用作系统上运行的任何软件的攻击载体。所以你必须确保他们即使他们在战场上是可以接触到的,他们在某种程度上是有特权的,这使得发动这样的攻击更加困难。

SE:这是一个有趣的观点。安全性在异构设计中起着重要作用。因此,一旦您在系统中添加了弹性,您是否可以使用SLM自动关闭设计的某些部分,安全地重新启动它,然后基本上重新开始?

艾特肯这在很大程度上取决于应用程序。在数据中心,你可以关闭一台服务器,取出它所在的块,并可能将其扔掉,这是一笔开销,但并非不可克服。但是如果你在高速公路上开车,引擎计算机说,‘这里发生了一些不好的事情,我要把自己关闭几分钟,别担心,’这不是一件好事。所以当你观察这些问题时,你如何减轻这些问题是有应用依赖的。构建基础设施,使它们能够被观察到,这显然是能够对此采取行动的关键部分。

Tahoori:所有这些层的传感器和监视器也可以帮助识别系统是否受到损害。有新的攻击向量,但额外的数据量和侧通道信息可以帮助确定系统是否受到损害。所以从根本上来说,SLM也可以用来改善或增强系统的安全性。

艾特肯:它也可以用作攻击载体。如果有人想出了如何让每个芯片上的所有生命周期标志同时熄灭,那么糟糕的事情就会发生,无论是在数据中心还是在自动化或半自动化的汽车中。

康罗伊:但它对组件欺诈有很大帮助,在这种情况下,其他人的组件正在被使用。你可以做更多的追溯。

SE:现在有很多供应商提供异构包中的组件。您如何管理所有这些供应商之间的关系,以便随着时间的推移,所有部分的行为都是可预测的?

Goteti:这绝对是我们必须掌握的东西,因为这些组件随着时间的推移会以不同的方式老化和进化。这很复杂,因为我们从不同的来源获得它们。要做到这一点还没有简单的方法。

SE:是否存在允许组织共享SLM数据的反馈循环?

密特拉这还不够好。组织是否会提供对RTL的访问权限,以便能够真正了解导致问题的原因?这取决于你想用它做什么。如果您试图找出静默错误的原因,则需要更多的信息。所以基础设施必须到位。

艾特肯:在IP领域,如果你被叫去诊断某个包含你的IP的东西的问题,你通常会进行讨论,然后是快速的会议,人们会不停地讨论。到了某个时候,就没人再理你了。你不知道这是因为你建议的最后一件事解决了问题,还是因为其他东西出现了问题,他们就这样解决了。关闭反馈循环是让这个生态系统运转起来的一个非常重要的部分,链上的每个人都有责任尽自己最大的努力实现这一点。有时会有法律原因、知识产权原因或实际原因导致信息无法交换。同意共同工作和共享数据是第一步,但实现这一工作的机制可能非常困难。

密特拉:真正的问题是,对于行业中最棘手的问题,我们是否有能力进行分析并提供反馈?这应该是我们作为技术人员应该问自己的问题。

Goteti问题是,你愿意与哪些IP共享这些数据?您不能要求数据中心用户提供有关他们正在运行的具体工作负载的信息。这是他们的秘密武器。你也不能要求IP设计师向你透露他们的RTL。这是他们的秘密武器。我们得想办法和彼此合作。

Tahoori收集到的所有数据都存在隐私问题。基本上,您需要清理数据,并传递有用的信息,以便对其进行处理。这是真正的挑战。

SE:那么你如何测试硅的生命周期管理,以确保电子设备在整个预期生命周期内可靠地工作?

康罗伊:在思科,我们总是谈论可测试性设计,但这不仅仅涉及运行测试。当你在进行设计时,你必须将测试架构到设计中。然后你必须问,‘好吧,我需要记录什么?我实际上需要什么信息,来自电路的哪个部分,在什么时间点?在生产测试期间,我将记录什么?“它可能正在进行系统测试。然后,如果我要在字段中记录数据,我需要什么?如何访问它?安全吗?这些都是最基本的问题,需要在一开始就考虑清楚。如果你不这样做,你总是要对解决方案进行改造。 SLM is more than test. It’s involves the whole infrastructure, including all the companies that are involved, the OSATs, how all that gets architected in terms of the data pathways, and then the data analytics. Manufacturing the product is one thing. Getting to the field is a whole different case, and every customer is different. It doesn’t matter if it’s somebody who bought a car, or if it’s a company that bought a network. The use cases are completely different around the data that gets logged and the data that gets shared, and what actions need to take place. In a car, it’s life-critical. In a cell phone, it’s just annoying. So there are many, many different scenarios here, and they all need to fall into place.



留下回复


(注:此名称将公开显示)

Baidu