中文 英语

硅生命周期管理对IC可靠性的影响越来越大

作为提高异构芯片和复杂系统可靠性的一种手段,SLM技术正被广泛应用于芯片设计中。

受欢迎程度

专家座谈:半导体工程公司与英特尔首席工程师Prashant Goteti坐下来讨论硅的生命周期管理,它是如何扩展和变化的,以及问题在哪里;Rob Aitken是手臂;思科首席硬件工程师佐伊•康罗伊(Zoe Conroy);斯坦福大学电气工程和计算机科学教授Subhasish Mitra;卡尔斯鲁厄理工学院可靠纳米计算主席Mehdi Tahoori。以下是这次对话的节选,是在最近的Synopsys用户组会议上(虚拟)进行的。

SE:随着半导体被用于安全和关键任务应用,以及随着异构设计的复杂性增加,人们越来越关注硅的生命周期管理。在汽车、工业和数据中心应用中,芯片需要更长的寿命,而设计成本也在推动延长半导体寿命的需求,甚至在手机中也是如此。

Goteti:传统上,这是关于延长寿命和获取数据,你反馈的产量和制造目的。但现在范围已经发生了重大变化,我们将看到的是硅的生命周期管理也必须相应地改变。我们将会看到大量的数据来自chiplets-多个小芯片在一个system-in-package.它将被用于数据中心的各种事情,从工作负载平衡、动态性能改进和管理,以及传统的遥测类型的应用程序。所以这绝对是一个新兴领域,还有很多工作要做。但这并不新鲜。已经有一段时间了。

康罗伊:从数据中心和网络产品的角度来看,它是硬件和软件的结合。这两者必须持续合作,不能有任何漏洞。从硬件方面来看,你看到的是某种类型的异构集成,其中有许多来自不同供应商的不同组件。第一个挑战是让你的头脑明白,‘好吧,这些组件是什么?它们分别做什么?如果我要进入SLM,每一个的风险是什么?我希望在我的产品中监控哪些可能对我的网络产生不利影响的关键组件?第一是真正理解你的产品以及产品是如何测试的,以及在整个生命周期中它将执行什么样的功能。然后你会说,‘好吧,如果我想端到端监控SLM,我将从晶圆排序直接到场。所以,如果我要测试和监控我的芯片,我到底要监控什么? And how, how am I going to monitor that? What data do I need to grab? How am I going to transport that data — from the source, from the test, or from the field — across a network and into an area where I can do real-time analytics?’ There are many components to SLM. And now we have things like cloud solutions, where we’re now able to do end-to-end analytics. But it’s very complicated, and we’re just at the tip of the iceberg for what’s going to happen in the future.

艾特肯:不仅仅是从晶圆测试开始。我们必须考虑CPU、周边逻辑、I/ o等等中实际需要包含哪些内容——为了提供数据,实际上必须包含哪些内容。你能用这些数据做什么?我们遇到了很多,甚至在物联网领域,如果你要做某种设备管理作为你的硅生命周期管理的一部分,你如何进行升级?软件如何更新?设备如何信任软件提供商?云服务如何知道该信任设备?在整个过程中有很多问题和挑战,有很多工作要做。但是已经有了很大的进展。

密特拉我的同行们谈论他们已经在做的事情,这很有趣。我们正处于黑暗时代,离我们想去的地方还很远。所以如果网络坏了,我们就知道有麻烦了。但现实世界中发生的事情并不是事情在走下坡路。而是他们给出了错误的结果,而没有人知道这些结果是错误的。它们被称为无声错误,业界似乎对此没有解决方案。

艾特肯:身处黑暗时代却仍在进步是有可能的。人们普遍认为还有很多工作要做,但这并不意味着什么都没有发生。

密特拉但是进展的速度非常缓慢。

Tahoori从积极的方面来看,有很多机会。随着我们的进步,系统变得越来越复杂。除了芯片和系统的质量,我们正在处理包括信任在内的许多问题。”SLM可以是一个解决方案,仍然有很多进步要做,但是SLM有希望解决非常复杂的硬件和软件系统的设计、验证和信任方面的一些挑战。如果处理得当,我们就能应对日益复杂的挑战。

SE:解决方案的设计是否更好,包括更多的验证和模拟,以及芯片在现场时的在线监控?

Goteti这取决于你想要达到什么目标。对于无声的数据损坏,无声的数据错误,这些可能是由于制造缺陷之类的事情。这就是更好的设计、验证和测试内容可能会有所帮助的地方。但是,如果您正在考虑动态工作负载平衡或每瓦性能调整之类的事情,那么在这种情况下,更好的验证并不能帮助您。所以你可以通过更好的设计、更好的验证、更好的测试内容来解决一些问题,但不是所有的问题。你必须选择你的战斗,战略是不同的。

密特拉:我同意也不同意。其中相当一部分本质上是动态的。你不能只是在0时刻静态地做,然后希望一切正常。你必须适应这个系统。但当你有适应性时,它必须得到验证。你必须确保在工作中事情不会出错。因此,自适应将同时带来更多的验证和测试。

艾特肯:这也涉及到安全问题。您提到无声的数据损坏是一个挑战。但是您的对象被黑客攻击或被用作僵尸网络的开端也是一个挑战,您需要确保您在设备上拥有的任何监控功能都能够识别设备何时受到攻击并对此采取措施。这是另一个向量,你可以在这个领域进行研究。

Tahoori:在推进系统需求的过程中,自适应是我们必须处理的问题,但它不一定是SLM。它们有一些重叠,但不一定是同一件事。SLM覆盖范围更广,允许我们基本上收集系统和芯片总体上的数据。从这类数据中,我们可以推断出更多有用的信息,而仅仅在单个系统或设备上进行调整是不可能实现的。这为大量设备和系统提供了进行异常检测的能力,无论是有缺陷的行为、无声的数据损坏,还是某种类型的安全漏洞。

SE:这是一个棘手的问题,因为获取一些数据非常困难。20年来,我们一直在讨论谁拥有这些数据,有多少数据将被共享,以及与这些数据相关的隐私问题。这种情况有改善吗?

康罗伊:当你做自己的芯片时,你就有自己的数据。如果您从其他供应商购买组件,您可能需要也可能不需要这些数据,这取决于组件是什么。通常,当你从其他供应商那里购买硅时,他们真的不想分享任何关于硅的数据,除非它是一个路过的芯片,而且它符合规格。但对于SLM,关键在于你确实想让数据沿着供应链流动。如果一个部分失败了,而它不是你的部分,你想知道原因。您希望有更多的数据来帮助您诊断它并确定根本原因。这个行业仍然不愿意向我们的私人公司提供数据,因为这会成为他们管理数据的支持负担。

艾特肯:这也是潜在的责任负担。当一个人拥有数据时,另一个人可能拥有问题。你需要一些设计数据、代工数据、测试数据、生产分布数据、现场数据的组合,这些数据都属于五家不同的公司。在某种程度上,每个人都想拥有问题的某些方面,而在另一种程度上,又想让其他人拥有问题?谁拥有什么,谁将保证什么,这是挑战的一部分。谁有什么动机在什么时候收集和使用什么数据?

密特拉这是关系到数据可靠性和安全性的重要一点。我在很多论坛上看到过关于谁拥有数据的讨论,但问题是确定我们谈论的是哪些数据。大多数时候,人们甚至不知道要收集什么数据,更不用说谁拥有数据或谁对数据负责了。这很重要,但真正的重点应该是要收集什么数据,机制是什么,工具是什么,需要在体系结构中放入什么才能收集数据。如何分析数据呢?这就是我们远远落后的地方。

Goteti:我同意数据量将是一个重要问题,我们将获得大量数据。如果你假设你有50或60个芯片在一个包里,你将从所有这些遥测中得到大量的数据,处理这些将是很困难的,除非你有一个有效的系统来处理它。但回到谁拥有这些数据的问题,这是一个需要迅速解决的开放问题。我们不是唯一的开拓者。飞机工业利用大数据已经做了一段时间了。发动机制造商从发动机中收集数据,然后决定是否与航空公司或飞机制造商自己共享这些数据。这是我们在半导体行业听到的,我们需要弄清楚的事情,而且是相当快的,因为数据即将到来。我们已经有了很多数据,我们正在研究如何使用正确的数据。

密特拉:你的信噪比非常小。

Goteti在噪声中找到信号很重要,但我们需要解决这两个问题。我们需要解决如何处理数据以及如何处理大量数据的问题。然后我们还需要弄清楚谁可以使用这些数据以及以何种方式使用这些数据,与谁收集这些数据无关。

相关的
大量数据,但不确定如何处理.以上面板的第二部分。
从老化效应到PVT,传感器到处都在监测,但业界仍在努力找出提取有用信息的最佳方法。



留下回复


(注:此名称将公开显示)

Baidu