中文 英语

逻辑芯片,自愈

自我修复芯片会让汽车电子产品更长寿、更安全吗?

受欢迎程度

如果一个单一的故障就能杀死一个逻辑芯片,这对复杂的多芯片系统的寿命来说不是一个好兆头。芯片的过时不仅仅是业界为了卖出更多芯片而采取的策略。这是一个物理事实,芯片不会持续超过几年,特别是如果过热,并受到高于它所能承受的电压。

测试行业在发现制造过程中的缺陷和预测什么会失败方面做得很好。测试能力只会提高。内存有处理故障的方法,可以保持内存芯片有效运行。但是芯片的逻辑部分什么时候能够自愈呢?

有几种方法可以“治愈”芯片。一种是将金属回流到电线中,目前大学和一些公司正在研究这一技术。第二种是使用内置额外电路的芯片余量,这是用于纠错码(ECC)内存的方法。边际可以从完全冗余的芯片或电路到通用的晶体管。第三种是用软件更新来覆盖有缺陷的硬件,这是苹果在2010年解决iPhone 4天线故障时采取的方法。

研发科幻生物疗法
生物类型的自我修复已经超出了业界谈论的舒适水平。芯片中的自我修复有时被用来描述相变存储器。与成熟的DRAM/NAND存储技术相比,这仍然处于起步阶段。“自我修复”在学术界也被用来描述芯片能够通过在其架构中利用适当的冗余来真正从灾难性的损坏中幸存下来。据我们所知,这仍然是学术界一个活跃的研究主题,但迄今为止还没有任何商业吸引力,”该公司总裁兼首席执行官苏博德·库尔卡尼说。CyberOptics

现在进行商业化的生物治疗还为时过早。英特尔半导体事业部副总裁兼总经理Doug Elder说:“我们并没有看到很多这样的情况。OptimalPlus.“在早期测试阶段和原型阶段,以及在研发阶段(客户收集数据),我们确实看到了一些零散的东西,但本质上我们还没有看到它们的大量应用。即使我们有,我们也没有意识到它们是自愈芯片,而且它们具有不同的测试特征。”

带有导线的芯片可以自动再生材料或在损伤周围重新布线,就像人类在受伤后一样,这种芯片在研发方面取得了一些进展。通过再生使金属“愈合”通常意味着施加某种类型的热量。此外,碳纳米管微胶囊在需要时破坏和修复部件是另一个正在测试的概念。围绕损伤重新布线可能仍然是最实际的应用。解决方案和混合方案都在尝试中,政府显然对此感兴趣。解决方案包括:

  • 应用热。当美国宇航局和韩国科学技术院(KAIST)研究制造一种芯片大小的航天器,使其能够在快速旅行(20年)中存活到最近的恒星时,他们研究了纳米线晶体管周围的门,这种门可以通过将电流/热量施加到晶体管门上的额外接触上来“自愈”,因为晶体管门会受到宇宙辐射的冲击。辐射会降解有缺陷的二氧化硅层,最终导致晶体管漏电。根据一个研究人员的说法,每隔几年让飞行器断电并加热就可以治愈这些缺陷IEEE Spectrum文章
  • 用纳米管包扎。在聚合物微胶囊中填充碳纳米管的想法已经存在了一段时间。微胶囊被触发破裂,并用导电碳纳米管对受伤区域进行电喷涂,以填补电线裂缝等缺陷。的伊利诺伊大学香槟分校研究自愈回路。
  • 控制出错的纳米管。纳米管本身可能有缺陷并引起问题。它们并不总是导电的,这给数字电路逻辑电路增加了噪声,但对模拟逻辑电路有害。根据IEEE频谱在美国国防部高级研究计划局(DARPA)的资助下,麻省理工学院(MIT)在已经制造的逻辑芯片上添加了一层碳纳米管,并在该层上添加了RRAM,这样每个晶体管都有该层和RRAM。当不导电的纳米管出现时,RRAM就像避雷针一样安全地将电流从短路中重定向。晶体管自愈。
  • 在ASICS中重新路由。2012年,加州理工学院(CalTech)的高速集成电路实验室在DARPA的资助下,在微型功率放大器上安装了一个ASIC,用于毫米波频率,并使用ASIC和传感器来监视中断的路径。然后ASIC将找出如何最有效地重新路由。研究小组报告说,在用激光照射芯片取出晶体管后,ASIC很快就找到了损坏晶体管的最佳重新布线方法。根据“毫米波功率放大器的集成自修复”摘要,ASIC被训练来观察工艺变化和晶体管不匹配,负载阻抗不匹配,以及部分和全部晶体管故障。IEEE发表的文章。
  • 内存中的重路由。相变存储器(PCM)在施加电子时改变其结构或相位。在经历了如此多的相位变化后,记忆细胞最终会在细胞中形成空洞,这意味着细胞变得无效。耶鲁大学工程学院找到了方法以自我修复PCM中最终出现的空洞。通过将记忆细胞包裹在金属中,当空洞出现时,电子有一个替代路径,从而保持记忆细胞的功能。

到目前为止,这些方法都没有出现在生产芯片上。“我和人们的谈话是,‘这很有趣。“人们正在研究这项技术。进入更商业化的应用和汽车市场仍然相当昂贵,”埃尔德说。“人们正在考虑它,但它还不是主流。我们可能会在未来的某个时候看到它,但至少从我的角度来看,没有人真正倾向于它,因为它仍然太昂贵了。”

在一段时间内,这项技术可能仍然过于昂贵,这就是为什么保证金选择激增的原因。

边缘建筑
至少在今天,提供故障转移选项是集成电路最可行的选项。故障转移是指自动切换到冗余或备用系统,以便在块或晶体管或内存位故障后,设备继续运行。在过去,这种方法作为一种设计方法很少受到关注,除了内存,主要原因如下:

  • 在智能手机等消费类设备中,设备通常每隔几年就要更换一次,因此潜在的缺陷很少会造成问题。随着先进的节点芯片在汽车上的使用时间延长,这种情况发生了变化。即使是主要的智能手机原始设备制造商现在也要求芯片的寿命从两年增加到四年。
  • 对于关键任务服务器,芯片要接受一系列测试,比如在烤箱中烘烤。在最先进的节点上,这种方法不再可行,因为芯片密度更高,介质更薄,对芯片进行一系列“厨房”测试可能会破坏它们。额外的晶体管是一种替代方案,增加的成本通常会被服务器的成本所吸收。
  • 过去大多数芯片都是平面的,因此引线暴露在外,很容易连接到测试器上。但是,有了先进的封装,才能实现过去与扩展相关的功率/性能优势,这些优势就不再暴露了。而且一旦芯片被放置在一个包装中,它们就不能再检查缺陷了。

由于这些原因和其他原因,例如越来越严格的汽车和工业可靠性标准,人们对所有数字电路中的冗余感兴趣得多。改变的是,芯片制造商不再把所有的东西都冗余化,而是考虑到底需要备份什么,是否可以开发出通用晶体管来实现多种功能,以及故障转移是否需要在同一块芯片上进行,还是可以在封装中的另一块芯片上进行。

“我们在许多不同的层面上都看到了这种情况,”福特汽车测试市场经理李·哈里森(Lee Harrison)说Mentor是西门子的一个业务s.“在硬件测试方面,人工智能和汽车之间存在着巨大的交叉。汽车原始设备制造商正在开发人工智能系统,他们在系统测试中运行了大量的人工智能系统,因为有一系列的处理核心。我们的目标是保持整个系统正常运行,并确保硬件是正确的。不过,现在不同的是,人们对自动驾驶汽车的使用需求越来越大。预计这些车辆的使用时间将显著增加。我们过去的测试是基于10年1万小时的使用。这是改变。最重要的是,一个AI芯片可能有1000个或更多相同的处理核心,因为它是汽车的大脑,你需要实现逻辑修复。”

其理念是拥有平均10个或更多的备用内核,可以在芯片的整个生命周期中在需要时打开。这还有一个额外的好处。如果一个或两个核在制造后不能工作,它们可以被设备中的其他核取代,这可以极大地提高良率。

哈里森说:“这是渐进式软修复。“如果一辆车的一个核心不断出现故障,那么每次你启动汽车,它就会转移到另一个核心上。这是大量处理集中的好处之一。”

然而,即使出现问题,也不总是瞬间或彻底的。其中一些可以通过在制造过程中更好的测试覆盖率发现,但另一些只能通过比较来自不同测试的数据之间的极小差异来识别。

“你可能需要两次或更多的测试来发现一个问题,因为你要寻找的是产量变化的增量,”该公司的产量管理专家卡尔·摩尔(Carl Moore)说yieldHUB.“你不能把所有的数据都放在一起,然后得出结论。例如,在射频功率放大器中,如果电流上升,通常功率也会上升。但它们可能不会以同样的速度增长。对于5G芯片,我们在芯片上看到多个象限和多个重复块。你可以比较这些块的结果,但你真的需要看看特定模式下的特定电流和它们之间的增量。这代表了一个分析数据以定义这些增量的全新领域。你必须更仔细地查看数据,并发现数据中的微妙之处。”

为失败做准备
自我修复芯片的一个关键因素是预测故障并建模。

“一种方法是在较高的压力条件下表征芯片,如更高的电压、压力和湿度,以及在封装中进行的测量,并将其纳入寿命曲线,”Jon Holt说PDF的解决方案.“挑战在于,根据应用的不同,磨损时间可能不同。在你收集所有数据之前,你无法预见这一点。”

即使这样,在一个复杂的体系结构中,如果不了解具体问题可能在哪里出现,这些问题也都不明显。要做到这一点,不仅需要在制造过程的各个步骤进行更有效的测试,还需要在设备使用过程中进行在线分析以监控设备。

相关关键参数先进的集成电路(阈值电压,驱动电流,互连电阻,电容器泄漏等)将随着时间的推移而降低,在达到故障的临界点之前,proteanTecs.”片上监控允许用户检测实时退化在部署的设备中,并将重量从单纯依赖从加速寿命试验到现场失效预测.这现在年代可靠性科学的新领域- - - - - -时间到故障建模的基础,基于physics-of -failure机制。用continuously监控系统的关键参数时,用户会收到故障提醒提前这样他们就可以采取纠正措施.随着设备设计、材料和制造工艺变得越来越复杂,这成为一种必须具备的能力。年代服务提供者现在可以通过预防故障来控制维护成本,估计和延长系统寿命,主动部署维护和维修资源,提高组件质量和性能降低运营成本。”

不过,这不仅仅是预测失败。兰德曼说:“这也是为了加速根本原因分析。”“如今,90%的rma都是NPF(没有发现问题),因为你需要重新创建问题,而这很难做到。通过持续的深度数据监控,您不需要重新创建问题,因为用户可以当场看到问题。军事革命已经带回了问题和来源的迹象。当系统在现场出现故障时,现在可以了解性能退化是由老化、电压不稳定、电源问题、时钟DCO压力过大或其他原因引起的。有了这些信息,你就可以回到测试数据中,看看是否与其他芯片有共同之处。然后,您可以将这些见解反馈给生产,以防止系统问题,反馈给HTOL(高温工作寿命),以提高可靠性测试,或者反馈给设计,以做出任何必要的调整。”

这就是参数化测试背后的整个思想,参数化测试已经成为5G测试的关键部分,因为在制造过程中,大部分芯片都无法进行测试。

“在设备的规格文档中,如射频前端模块或波束形成器,您知道该设备将具有围绕某些性能特征的保证规格,”David Hall说国家仪器.“你知道输出功率和调制质量,对于许多基于标准的5G设备测量,它将具有特定于标准体类型定义的指标和性能规范。因此,例如,3GPP将为5G设备指定调制质量必须优于X%或向相邻信道的发射必须优于X dB。如果你正在构建一个像功率放大器这样的设备,你可能会指定谐波通道中的发射只能是X分贝。所有这些都是具体的衡量标准。”

这组规格的任何变化都是可以观察到的,并且应该能够触发系统中的调整,无论是晶体管或核心的故障转移,还是传感器或其他模拟设备的重新校准,以考虑漂移。但在定制设计中要困难得多,因为没有这样明确的规范。

proteanTecs首席商务官Raanan Gewirtzman表示:“现在的变数比过去更多。”“在过去,你解决了一个问题,如果数据发生了变化,你就可以改变数据。现在,有了学习软件,这就无法得到充分的测试。你可以按照它应该使用的方式使用它,但有更多的可变性。系统一直在变化,每台电脑都不一样。这对持续监控非常重要。你可以继续监测参数,并定期进行,以便提前知道什么时候发生了变化,以及它是否缩短了生命的终点。”

自我修复回路的进化
自修复芯片的想法始于纠错内存,这可以追溯到1958年,当时IBM在其大型机中引入了奇偶校验控制。如果一个内存位发生故障,数据不会丢失,设备内置的额外位可以替代有缺陷的位。这可能是由一个潜在的缺陷引起的,也可能是由一个可以“翻转”一点的迷路的阿尔法粒子引起的。还有比特翻转网络攻击,这给这个问题增加了一个新的转折。

在过去,由这些放射性粒子引起的单一事件扰动更多的是理论而不是现实。但是随着存储器和其他电路密度的增加,出现问题的几率也在增加。这可能是由于α粒子,但也可能是由于制造过程中的工艺变化,或生产过程中使用的气体甚至硅片中的杂质。在10/7/5nm时,这可能会导致严重的可靠性问题。

产量是另一个因素。当索尼推出Playstation 3时,它使用了与IBM和东芝共同开发的Cell微处理器,其中包括8个协处理器。当时,业内人士表示,这些协同处理元素中只有7个是必需的,但其中8个是为了确保最新工艺节点的产量足够高。

结论
有多种方法可以避免在现场出现问题。第一步是找出问题的原因,以便采取适当的措施。但出于成本、重量和功率的考虑,在大多数应用中,仅仅让所有东西都冗余是行不通的。因此,在短期内,我们的目标是更细致地了解设备的哪些部分不会出现故障,并找出防止立即出现问题的方法。

长期的方法是真正的自我修复逻辑电路,到目前为止,这种成本对于大多数应用来说仍然太高。但就像半导体领域的其他一切一样,规模经济将降低这些成本,使这些技术得到更广泛的应用。

Optimal Plus的Elder说:“让芯片能够实时自我修复仍然太昂贵,无法在商用产品中实现。”“做起来更容易,我讨厌这么说,回忆。”汽车中的FRU(现场可更换部件),机械师用来替换故障部件的,将会存在一段时间。“FRU的成本如此之高,以至于让它能够自我修复仍然没有意义。人们在玩它。但更多的是在内存空间和图像传感器空间,因为每像素的成本比历史上要贵得多。”



留下回复


(注:此名称将公开显示)

Baidu