中文 英语
18lk新利
的意见

传感器,数据和机器学习

到处都在生成数据。这会让芯片更可靠吗?

受欢迎程度

随着越来越多的传感器被添加到这些设备中,机器学习被应用到这些数据中,将可靠性构建到芯片和系统中的策略开始发生变化。

在过去,系统监控严重依赖于MEMS设备,如加速度、温度和定位(陀螺仪)。虽然这些设备仍然很重要,但在过去的几年里,传感器在系统中嵌入得更深,出现了爆炸式增长。因此,它们不仅可以判断设备何时过热,还可以用来感知芯片中一个微小区域的温度变化。

这使得一些电路可以被切断电源,以避免在处理器和加速器密集的系统中出现问题。因此,在一系列连续的处理元素中,一些可能是打开的,而另一些是关闭的,并且随着这些区域的使用温度升高,它们可能会恢复。其结果是增加正常运行时间,降低功率,减少电路老化和寄生。

这是一种看待可靠性的不同方式,并不是每个设备都值得这种水平的工程。它增加了设计和测试过程的成本、时间和复杂性。但对于在最先进的节点上用于任务和安全关键应用的芯片来说,这只是半导体和系统设计可能发生根本性变化的开始。

因此,与其依赖电路在各种可能的压力下维持多年,不如将重点转移到动态数据驱动的系统模型上。现实情况是,在5nm及以下,可能的极端情况越来越多,无法在合理的时间内理解。在供应链和制造过程中,有太多可能的交互、用例和可能出错的事情。几乎不可能对所有这些都进行测试。

另一方面,拥有一个可以通过调整性能、功率和优先利用共享资源来适应任何极端情况的系统是非常可能的。这是将监控、供应和分区全部集成到一个芯片中,为了实现这一点,它需要将传感器内置到芯片中的每个块或关键数据路径中。然后需要对来自这些传感器的数据进行排序,这样如果某个区域出现问题,就会触发一套如何应对该问题的协议。

这本质上是ISO 26262在汽车中要求的那种故障转移,只是更细粒度。如果电路由于一些潜在缺陷或杂散的阿尔法粒子而故障,传感器可以发出警报,表明没有信号通过该区域。然后,它可以通过一些预先规划的路由方案重新路由。

实际上,这种方法使用整个设备进行保护,这种方法内存制造商已经使用了一段时间。当然,这并非没有挑战。它需要在设计中构建更多的传感器,如何利用这些传感器的内聚数据策略,以及新的机器学习算法和系统级方法来管理芯片。但是在一个复杂的异构设计中,这是一种全新的看待可靠性的方式,它最终可能比试图寻找每一个可能导致故障的缺陷和极端情况更有效。



留下回复


(注:此名称将公开显示)

Baidu