中文 英语

芯片越来越可靠了吗?

也许吧,但新设计和新技术的指标是模糊的,而且未知因素比以往任何时候都多。

受欢迎程度

可靠性正在成为半导体行业的一个关键指标,与功耗、性能和成本并列,但它也变得越来越难以衡量,也越来越难以实现。

大多数大型半导体公司关注的是与消费设备相关的可靠性,这些设备在被替换之前可以使用数年,但使用先进SoC设计的汽车、医疗和工业电子产品的大力推动提高了标准。在这些市场中,芯片需要工作10到15年,而不是许多消费设备的2到5年寿命。此外,进入这些市场的芯片制造商被要求遵守比过去严格得多的标准,即使他们的芯片不是为安全关键系统设计的,因为现在汽车里的一切都是互联的。

在所有这些市场中,有一点很清楚,那就是可靠性现在既是一种要求,也是一种卖点。一个JD Power研究本月早些时候发布的一项调查显示,可靠性问题是购车者选择某个品牌或避免购买某些车型的原因之一,55%的新车购买者将可靠性作为购买汽车的首要原因,而2015年的一项研究中这一比例为51%。相反的情况也是如此:17%的人说他们现在不买某些车型,而去年这一比例为14%。

但由于种种原因,芯片的可靠性并不容易衡量:

定义是模糊的。可靠性是对功能随时间变化的度量。如果一个芯片完全停止工作,它就被认为是不可靠的。但在许多情况下,随着时间的推移,性能会下降,无论是由于电迁移、一层又一层的软件补丁、内存位故障,还是其他可能突然出现的问题。在这些情况下,可靠性可能更主观,而不是决定性的。
安全从未得到保证。安全性是衡量可靠性的新标准,设备使用的时间越长,被攻破的可能性就越大。黑客的知识库在不断扩展,工具和功能也在不断改进。如果一个有5年历史的设备被黑客入侵,使用的技术在设备创建时并不是发明的,那么它应该被认为是不可靠的吗?
长寿是一种猜测。大多数先进的半导体对于使用两年的设备来说是足够可靠的。其中一些可以持续50年。但现实是,没有人知道16/14nm芯片会爆发什么问题,或者它们是否比10nm芯片更好,因为动态功率密度是一个新的挑战。即使是28nm也只是最近才成为主流节点。随着finfet、栅极全方位fet等新技术、新材料、新互连(如硅通孔)和新工艺的引入,总是存在不确定性。
用例很重要。随着半导体变得越来越复杂,找到所有缺陷变得越来越困难。其中一些可能是依赖于用例的,这使得可靠性的定义不仅对每个设备来说是唯一的,而且对每个用户来说也是唯一的。随着越来越多的组件争夺内存,多个电压岛,打开和关闭的模块,以及更多的软件和固件,芯片的使用寿命看起来更像一个钟形曲线,而不是一个固定的数字。

这些都与机顶盒或智能手机无关。但它与工业控制系统、数据中心存储场或汽车相关。事实上,有一个完全新的篇章ISO 26262应用半导体功能安全概念的规范。

“在此之前,ISO 26262规范主要集中在电气盒上,”英特尔营销副总裁库尔特·舒勒(Kurt Shuler)说Arteris。“现在半导体是规格的关键部分。考虑到功能可靠性,将其添加到硬件中风险更小。如果你在软件中实现安全可靠性,软件在流程的后期会发生变化,因此版本控制变得更加困难。”

这反映在自测技术的复苏上,自测技术是一种较老的技术,被汽车市场用来衡量芯片是否正常运行。

“我们看到这些公司正在大力推动开机自检,”美国通用电气公司副总裁兼总经理乔·萨维奇(Joe Sawicki)说导师图形“从设计到芯片”部门。“这是这项技术的第二次生命。当芯片启动时,系统可以确定它是活的还是死的。这并不会让芯片更可靠。因此,我们也看到了对逻辑内置自检(BiST)的大力推动。每个人都在使用内存BiST,但逻辑BiST正在崭露头角。”

建立正确的关系
在芯片使用过程中进行测试是一回事。从一开始就正确地构建它并确保它功能齐全是另一回事。这其中的新问题是确保它适用于特定的细分市场。

“我们收到了更多关于可靠性和安全性方面的问题,”该公司模型技术总监Bill Neifert表示手臂。“那么,如何通过故障注入来提高安全性、可靠性和安全性呢?这是一个常见的话题,工程师们正在寻找完全可见性,以便他们可以注入和监控这些故障。”

Neifert指出,对可靠性的需求也延伸到了其他市场,这可能不那么明显。“对于物联网,安全性和准确性至关重要。你最不想做的就是制造出一个黑客梦寐以求的设备。正如我们最近在大众媒体上看到的一些物联网设备安全问题,一个不安全的物联网设备可能会使你的整个家庭网络不安全。”

增加复杂性并不能解决问题,而且无论使用何种工艺技术,到处的芯片都变得越来越复杂。

“现代芯片是硬件和软件的杰作,但把所有的元素和功能放在一个设备上,使得质量保证过程成为一个真正的挑战,”英特尔硬件部门总经理Zibi Zalewski说Aldec。“测试的范围非常广泛,需要集成的验证解决方案来实际测试SoC级别的芯片。甚至SoC的子模块都已经是大的“芯片”了。分离测试将检测和解决模块级问题,但在过程早期引入的集成验证平台将提高整个芯片的可靠性,并有助于管理接口依赖关系。由于ASIC项目的新硬件实际上是由芯片上运行的软件驱动的,因此在芯片设计过程中必须尽早启动固件的验证。在处理软件方面,模拟和联合模拟不再足够或太慢。UVM方法有助于这个过程,但是需要运行数千个与硬件相关的软件测试来完成测试。集成测试涵盖了新芯片的软件和硬件元素,提高了质量,缩短了整体质量过程。”

尽管如此,随着时间的推移,质量是一个没有界限的问题,除了过去的设计中发生的事情之外,没有任何证据。预测更复杂的设计或使用新技术的设计的可靠性是最好的猜测,尤其是在存在如此多变量的情况下。

该公司首席执行官Anupam Bakshi表示:“可靠性有三个方面Agnisys。“一个是设计需要在施工时是正确的,‘从规格到设计’的过程是自动化的。其次,测试需要是可移植的和可扩展的,这样设计可以被验证,硅可以被验证是正确的。第三是铸造厂的可靠性。随着我们转向先进的节点,由于工艺的新颖,确保可靠性变得越来越困难。”

在不同的市场,可靠性也意味着不同的东西。在数据中心,从磁带到旋转存储的转变被认为是可靠性的提高。从旋转磁盘到固态硬盘的转变还不太确定。

“他们一直不愿使用固态硬盘,因为它在1和0之间只有那么多次翻转,就会报废,”Arteris的舒勒说。“现在你有多tb的NAND连接到一组控制器,整个事情是确保比特的完整性。我们认为可靠性是5个9,但对他们来说,接近10个9。”

关键任务市场的可靠性保证与安全关键市场一样重要,它影响着从设计到制造的供应链的每一个环节。

“在过去的六到八周里,我和六位客户谈过这个话题,”苹果设计集团(Design Group)产品营销总监希泰什·帕特尔(Hitesh Patel)说Synopsys对此。“我们看到的趋势是,设计尺寸越来越大,场景数量也越来越多,所以你需要在不同的模式下进行测试,比如闲置或运行模式。在较老的节点上,静态分析就足够了。现在您需要动态分析,但分析结果仅与您创建的向量一样好。我们看到用户试图直接从仿真中获得矢量,用于电压降分析。但是如果你有一个1亿个实例的设计,一些工具需要7到8天的时间来运行。你可能没有时间去解决所有的问题。你在这个过程的早期做得越多,完成任务的可能性就越大。”

这也是为什么会出现“左移”的趋势,即在设计周期的早期完成更多工作。这也是为什么所有主要EDA供应商都看到稳步增长的原因之一模拟以及其他可以将前端设计更紧密地连接到后端的工具。

大的趋势
可靠性也可以从宏观层面来看待。不断上升的设计成本,以及在设计过程中引入不同技能组合的需求,正在推动整合。目前还不确定这是否会对可靠性产生直接影响,但如果合并后的公司决定将资源投入其中,它肯定可以为设计的广泛验证和调试提供适当水平的资源。到目前为止,还没有确定。

包装的新方法是另一个未知数。作为摩尔定律因此,许多公司已经开始开发基于扇形输出和2.5D架构的芯片。虽然多芯片模块方法早在20世纪90年代就出现了,但使用中介器和高带宽存储器将各个模块组合在一起是新的。随着时间的推移,这些设计的表现如何还不得而知。

“这个问题在理论上可以回答,但在实践中却无法回答,”公司营销副总裁迈克·吉安法尼亚(Mike Gianfagna)说eSilicon。“基于这一理论,硅中间体是稳定的,而且大部分是被动的。诸如金属迁移和翘曲等概念已被很好地理解,并且中间因素不会增加不可靠性。但对于先进的节点来说,这一点也不确定,在那里你有隧道效应,门有一定数量的原子宽。更大的问题是这些芯片在10年内的速度会发生什么变化。温度越高,影响就越明显。这正成为一个越来越需要应对的问题。”

尼克·希顿,杰出的工程师节奏对此表示赞同。“最大的问题是这些设计如何处理逐步退化。在汽车行业,我们看到越来越多的功能安全工具能够容忍单次或多次故障。不过,在这个领域还有很长的路要走。5年后28nm会是什么样子?我们能做的就是最大限度地覆盖各个层面。但是用例仍然是真正的问题。你可以用所有你认为可以避免的排列来掩盖它。”

希顿指出,一些开发先进soc的团队由数百名工程师组成。但他说,即使有这些大型团队,资源仍然有限。“他们必须对自己要测试的东西很聪明。他们为硬件、软件、硬件加速器和操作系统运行一定数量的低级测试。这就是我们目前的情况。”

那么,企业在多大程度上扩展了技术呢?这可能是一个更有趣的问题,因为soc和新技术开始被应用于安全和关键任务市场,并有一些历史。

“最大的问题永远是你在多大程度上推动这项技术,”微软首席技术官德鲁·温加德(Drew Wingard)说超音速。“越接近边缘,它就越不可靠。我们正处于一些非常有趣的权衡的边缘,这些权衡涉及包装复杂性、已知的好模具和经济,也就是说谁应该受到指责。痛苦与收获的比率是多少?通常情况下,收益必须非常高,但经验可以帮助改变这一点。”

它是否为可靠性增加了良好的指标还有待观察。然而,在这一点上,有太多的未知因素,无法得出什么是错误的,什么是真正导致错误的,以及谁应该对错误负责的结论。



4评论

奥利弗lauzeral 说:

好文章,艾德。
您强调了影响增长最快的半导体市场的一些关键问题:汽车和物联网。
你是正确的:安全性是风险概率和故障对系统/应用程序的影响的组合。可靠性主要是评估故障风险,但通常不考虑影响。在许多组件(硬件和软件)相互交互的复杂系统中,分析位故障的影响非常重要,或者换句话说,研究这种故障的传播直至系统崩溃或重要数据的静默损坏。
实际上,在绝大多数情况下,失败会消失,它会自然地被系统吸收,不会产生任何可观察到的问题。我们称这种传播到系统的概率为“降额”(体系结构降额,应用程序降额),其他人使用AVF(体系结构漏洞系数)。计算这些关键因素的最佳方法是什么?模拟,或者智能模拟,可以将错误注入的限制时间(在您的文章中提到的几天)减少到更易于管理的持续时间。有一些方法和一些现有的EDA工具可以做到这一点。除非对情况进行准确的量化评估,否则不会有任何具有成本效益的缓解措施。而满足客户实际需求(故障率方面)的最佳解决方案将是软件、硬件设计和工艺技术敏感性的结合。为了获得最佳结果(性能和成本),需要解决这三个方面的问题。
哦,顺便说一下,在没有AVF(主要影响SER)的情况下,由于软错误(基于自然辐射)导致的测量设备故障率有时比硬错误率(您在文章中主要提到)高出1000倍。因此,老龄化、电迁移和人工智能并不是唯一的威胁!
更多信息,请查看:http://thesofterrorexperts.blogspot.com/

Ed,我认为你说到点子上了,我同意你的大部分陈述,但我有几点你和你的调查受访者没有提到。

您提到可靠性测量变得越来越难以测量,也越来越难以实现。我不同意。虽然许多可靠性测试集中在离散设备上,但复杂设备作为黑盒提供了更大的灵活性——以更快的速度动态输入,具有期望的已知输出。时序、功率放大、阻抗和电流/电压的变化似乎使仪器和测量在测试中变得更容易。请记住,加速测试可以在大样品尺寸(和晶圆)上使用即插即用的数字测试仪,而不是手动控制的dmm。有几个指南和标准可以解决这个问题:VITA 51.2, SAE 6338, AEC Q100和其他如ISO 26262等已经更新,以反映解决半导体可靠性的需求。我迅速反驳说,赛灵思和aec级组件的生产商一直在这么做。dfmea是工具棚里的一个工具,就像DfR的Sherlock工具用于棋盘关卡设计一样。

虽然定义看起来很模糊,但事实并非如此。我进行了太多的故障分析,无法区分由于性能参数或ESD而发生故障的“行走损伤”设备与灾难性故障设备之间的区别。它们的电特征非常不同,不同失效机制的物理表现也非常不同。我对DfR的大多数IC磨损测试都是针对一个关键性能参数进行的——它会影响系统的预期结果。在过去的几年里,DfR Solutions一直致力于航空航天、航天和汽车市场,帮助定义测试和预测方法,以预测复杂集成电路的使用寿命。我们已经能够应用,有时创建和验证半导体,互连,键合线和pcb的物理故障模型。如果设计得当,可以在盒级或系统级减轻不可抗力,并且可以通过保护装置设计出ESD/EMI/瞬变。可靠性需要在系统设计的每个层次上加以解决。

安全性遵循与可靠性相同的脉络,应该在早期设计阶段开始评估。我可以用我的许多安全角色和CISSP培训来谈论这个问题好几天。然而,简单的观点是,asic,安全掩模,IP保护和供应链管理已经使芯片在某些领域非常强大。这就需要在成本和时间上进行权衡。如果IP很容易被复制,那么1亿美元的掩码就没有意义了。

可以通过一套适当的加速试验来评估、建立和模拟寿命。虽然代工厂通常不支持客户驱动的应用程序和环境,但有些代工厂做得更好,有些非代工厂做得更好。它变成了一种功能,能够在可控条件下参数化地使设备失效,并具有可重复性。新技术总会带来不确定性。这就是新技术的风险回报命题——超级高铁会成功吗?

自检技术已经存在多年了。我见过的大多数可编程设备都在启动时建立了某种形式的逻辑测试或代码验证。三模块冗余(TMR),纠错(ECC, EDAC)和投票系统也可以防止软件和硬件逻辑的挂起。

Neifert关于物联网安全的说明似乎是操作安全和产品级安全之间的混淆。我在这个市场已经很多年了(在它被称为物联网之前),最近的新闻报道表明,匆忙导致糟糕的工程决策。不安全的婴儿监视器和IP摄像机迅速进入市场,以跟上物联网的炒作,不应该成为这里的典型比较。我同意Zalewski的观点,即尽早在设计中使用使用加速测试技术(即烤箱和冷却器)的功能模拟测试台将提高整个芯片设计的可靠性。我已经为组件制造商和oem测试了微控制器,cpu, gpu,闪存,fpga,以太网,光学设备。ssd不像盘片驱动器那样可靠,除非你有一个有限的占空比或FTL后面的高冗余,用户不会知道他们的设备已经丢失了30%的比特。您很少应该在一个运行状态下进行测试。您应该始终在设备中测试操作模式,因为它们存在并且将在其应用程序环境中使用。这不仅适用于可靠性,也适用于错误识别。最后,不要太快地说高温环境是失败的预兆,我看到28nm节点在室温下更快地失败,更接近于在高温下冻结。 New packages and interposers have models and FEA can be performed to see the interdependencies of the materials.

未知的事情比人们想象的要少。

凯文 说:

“寿命是一种猜测”——实际上它更像是统计、电迁移和机械疲劳模型的混合。然而,大多数人更喜欢跳过工作而猜测。对于那些用15和0来思考的数字设计人员来说,这超出了他们的技能范围。

kpc 说:

“在所有这些市场上,很明显的一点是,可靠性现在既是一种要求,也是一种卖点。”你说得对,这很重要。传统上,可靠性保证是做生意的一项必要成本,而管理的趋势是使成本最小化。因此,可靠性总是被低估。可靠性应被视为一种增值投资。它是一个利润中心——一个可以提升品牌并使产品以更高的价格成功销售的中心。我们需要的是一种衡量可靠性投资回报率(ROI)的方法,就像任何其他投资一样。你知道怎么做吗?

留言回复


(注:此名称将公开显示)

Baidu