中文 英语

为什么芯片会死

半导体器件在制造前后面临许多可能导致其过早失效的危险。

受欢迎程度

半导体器件包含数亿个在极端温度和恶劣环境下工作的晶体管,因此这些器件中的许多无法按预期运行或寿命有限也就不足为奇了。有些设备从未走出实验室,还有许多设备死在了工厂里。人们希望大多数发布到产品中的设备能够存活到过时,但许多事情可能会导致它们走不了那么远。即使是运行正常的设备也可能被破坏到不能再提供正确结果的地步。

常见的危险及其原因有一个很长的清单。它们通常分为几个类别,具体内容如下。

故意死亡
根据Mentor/Wilson的功能验证研究,2018年只有26%的asic实现了首次硅成功,低于之前的研究结果。成功率低的部分原因是新技术节点增加了尚未完全理解的挑战。已经存在了一段时间的问题被合并到工具和流程中,使那些已知的问题不那么具有威胁。然而,在2018年,混合信号接口、串扰、时序和IR下降——所有已知的问题——看到了这些问题引起respin的速度上升。


图1:导致重旋的ASIC缺陷类型。资料来源:威尔逊研究集团和Mentor, A Siemens Business,“2018功能验证研究”。

英特尔产品经理Kenneth Chang表示:“一些客户芯片失败,是因为他们的设计过程更加特别。Synopsys对此.“一个客户做了块级功率分析,然后进行集成。他们认为他们可以在那个阶段解决问题。无法修复,芯片也没电了。芯片会消亡,因为旧的方法不再适用于新的激进的先进技术。”

它并不一定是非功能性的失败。“它可能会失败,因为它没有达到性能目标,”北京数字与签约集团的产品管理总监Jerry Zhao说节奏.“如果硅芯片回来的速度比预期慢10%,它可能在市场上没有竞争力。”

电源正在成为一个挑战,特别是当电源是芯片上的时候。“电力输送网络(PDN)是一个分布式RLC网络,可以分为三个部分:片上,封装和板上,”Lisa Minwell说,高级解决方案营销经理手臂的物理设计组。“芯片上需要更快的时钟频率,更低的电压操作和更高的晶体管密度。虽然先进的finFET技术已经实现了持续的性能推动,但不断增加的功率密度使得红外降压关闭成为一个挑战。精确建模和最小化电压裕度对于平衡能源效率和稳健性至关重要。”

但利润率可能是悲观的,从而限制了竞争力。尽管发现了问题,一些公司还是冒着风险继续前进。Chang说:“一家大型内存公司的磁带存在较大的IR下降问题。“只要看起来不太糟糕,他们就会把它录下来,因为时间表对他们来说更重要。客户正在学习,在这种情况下,他们的芯片并没有失败。如果他们没有失败,他们就会继续做他们正在做的事情。当他们到达更激进的节点时,他们将需要更多的度量驱动并执行EMIR分析。”

也有越来越多的问题是相互关联的。例如,功率、红外下降、热、定时、电迁移都是相互关联的,但其中大多数的分析都是单独进行的。“电源噪音是一个问题,”赵说。“电压供应正在下降,与此同时,用户希望获得更高的性能。你没有太多来自电池的驱动功率,可能是850毫伏,但你仍然想要3ghz的性能。电源噪声可能会产生重大影响,特别是如果整个模具存在变化,而且这种[噪声]会随着时间和位置而变化。因此,相同的电池在不同的位置可能会因电压下降而失效,从而导致定时延迟。您必须在电压下降的情况下分析电池,并进行静态电压感知时序分析。有些路径可能对电压变化非常敏感。”

随着问题得到更好的理解,工具可以执行更好的分析,并且可以使用设计方法来规避问题。“复杂性导致了更高的功率密度,这反过来又在芯片内部产生了局部加热(热点),”Ramsay Allen解释道Moortec.“栅极密度的增加也会导致电路供电电压的更大下降。整个设计过程中的高精度温度传感器和电压供应监视器使系统能够管理和适应这种情况,通过提供热管理和供应异常检测解决方案,提高设备可靠性并优化性能。这在数据中心和人工智能设计中尤其相关,在温度和电压方面,性能要求的提高给设计带来了巨大的压力。”

制造造成的死亡
半导体器件的制造涉及到只有几纳米大小的结构。从这个角度来看,人类DNA链的直径为2.5纳米,而人类头发的直径为8万至10万纳米。一粒灰尘就能破坏晶圆上的几个晶圆片。如果模具的尺寸变大,随机故障的几率就会增加。对于成熟的工艺节点,产量可以达到80%至90%。然而,对于较新的节点,产量可能会大大低于50%,尽管实际数字是严格保密的。


图2所示。晶圆缺陷模式。来源:Marvell Semiconductor, ITC 2015。

即使没有受到灾难性影响的死亡也不能被认为是可操作的。制造步骤并不完美过程变化一个原子的能量就能产生巨大的不同。虽然这可能不会对设计的某些部分产生影响,但如果工艺变化恰好与关键的时序路径一致,则可能会使设备超出规格。

“随着设计演变为深亚微米技术先进的包装在现有的仿真工具和设计方法中,并没有很好地捕捉到可变性及其对可靠性的影响,”at公司ESD/热/可靠性产品经理Karthik Srinivasan解释道有限元分析软件.“这会导致设计流程出现缺口,从而导致一些失败。”

设计流程越来越多地允许在开发早期考虑变化,以最小化其影响,并且设计技术(如冗余)可以减少需要丢弃的“几乎工作”芯片的数量。“几乎可以工作”的芯片在大型存储阵列中非常常见。装箱是另一种经常用于处理器的做法,在更高频率下运行的最好的设备可以以更高的价格出售,而那些只有在降低频率时才能正常工作的设备则以折扣价出售。

测试的作用是找出哪些模具功能齐全。那些边缘的模具经常被放在废弃堆中,但一些没有功能的模具确实逃脱并最终成为产品。

搬运致死
杀死芯片的方法有很多种。假设0.5V施加在芯片外部,当施加在1nm的电介质上时,产生0.5MV/m的电场。这足以使高压电线产生电弧。现在考虑一下当你触摸芯片的引脚时会发生什么。

赵解释说:“通常情况下,它的电压要高得多,根据触脚的方式,你有不同的模型,比如人体模型或电荷分布模型(CDM模型)。”“这些模型定义了电流如何供应到引脚。这是一个随时间变化的波形。”

通常,芯片将包含静电放电(ESD)保护。ANSYS的Srinivasan指出:“对于封装上的单个模具,他们的目标是2kJ等标准。多芯片解决方案,如HBM选择稍微低一点的标准。一个去的理由2.5 d三维集成电路是为了性能,ESD是性能的障碍。您试图在这些宽I/O接口或任何类型的多模接口通道上最小化或甚至摆脱ESD,这意味着您无法真正地对每个模进行与单个模相同的标准测试。它们必须通过更专业的测试方式,因为它们的ESD保护微乎其微,甚至可能没有ESD保护。”

即使在操作过程中,ESD事件也会引起问题。“ESD会在便携式电子产品中引起多种类型的软错误,”Arm的Minwell说。“在ESD事件期间,由于某些IC(振荡器IC、CPU和其他IC)的敏感性,或者由于与PDN迹线的场耦合,可以在配电网络(PDN)上诱导噪声。”

关联死亡
“软错误会以多种方式发生,如果这些错误是系统的设计,它会让芯片看起来好像不工作。3D IC正在增加对电磁感知设计方法的需求,”at的营销副总裁Magdy Abadir说Helic.“这是因为产生了更高的功率密度和堆栈层数的增加,从而产生了更高的天线风险,这些天线会放大整个设计过程中产生的磁场。”

电力供应不足也会成为问题。“芯片的功能取决于晶体管的转换,”赵说。“这取决于供电电压。如果它能在1V下工作,它可能会再下降10%或20%,但仍然可以正常工作。但时间会有所不同,因此最大时钟频率可能需要更低。”

随着电压的降低,电路因为更容易受到噪声的影响。ANSYS半导体事业部首席技术专家Norman Chang表示:“电磁干扰(EMI)是芯片对环境产生的噪声。“噪音的来源来自有源电路,它会在电源地线和信号线上产生电流。电源/地线将通过封装到PC板上,如果它看到封装或板上的天线结构,将引起通过空气的辐射,然后通过天线结构将辐射到环境干扰。”

但是出去的也会进来。Chang指出:“电磁敏感性(EMS)是人们不得不担心的一个新问题。”“功率注入测试是将1W从150kHz一直注入到1GHz。在每个频率上,你将向系统注入1W的能量。如果你没有足够的保护,你会破坏电路沿着路径进入芯片。目标不是破坏芯片,而是测试这种噪声是否会影响电路。或者引脚上的电压可能太高,如果电压太高,就会出现电过度应变。”

手术死亡
在这一点上,一个芯片已经到达现场,并被认为是可操作的。该公司首席产品营销工程师菲昂•希林(Fionn Sheerin)表示:“可靠性是一个大问题微芯片该公司的模拟电源和接口部门。“在很多情况下,糟糕的热设计不会导致瞬间的灾难性故障,甚至是平庸的产品。它是设备寿命短的产品。观察布局中的热点或最佳布局实践和良好的楼层规划可以发挥作用。这也是你的验证和可靠性测试真正重要的地方。这也是汽车应用功能安全的一个问题。”

乔·戴维斯,产品营销总监Mentor是西门子旗下的企业对此表示赞同。“热带来的问题不仅仅是你口袋里的手机变热。它会导致晶体管和它们之间的连接退化。这会影响性能和可靠性。”

热量由两个来源产生。“首先在路由层,”赵说。“这是与导线中电流流动有关的热量。模拟电路的电流比数字电路大。所以模拟设计人员不得不担心温度过高会融化电线。第二个来源是晶体管。当我们去finFET,其中一个新现象是自热。热沿着弱电阻路径,从晶体管的鳍片垂直地逸出。这增加了电线中的热量。”

当高电流和热汇聚在一起时,电迁移会慢慢损坏电线。同样,物理效应如负偏置温度不稳定性(NBTI),当你有大量的电荷时,会对设备造成压力,如果保持足够长时间会导致永久性损伤。

结论
这篇文章只包含了芯片从绘图板到产品以及在产品生命周期中生存所面临的一些挑战。

芯片在恶劣的环境中运行,半导体行业已经学会了如何应对这些挑战。但随着制造尺寸越来越小或采用新的包装技术,新的问题也随之出现。有时,这些新效果会导致设备故障。但从历史上看,该行业很快就学会了规避新问题或找到最小化问题的方法。

有关的故事

驯服NBTI,提高设备可靠性

在10/7nm及以下,晶体管老化加剧

致命的虫子



4评论

芭芭拉·卡尔基 说:

到明年1月,我将在半导体行业工作39年,其中大部分时间都专注于ASIC,包括我参加的ASIC工程课程。基于这一经验,我的看法如下:

Brian的文章支持EDA和包装装配公司的观点。这些人正试图解决销售软件所描述的问题。它能彻底解决问题吗?我对此表示怀疑,原因很简单,它为设计沟通过程增加了另一个层面。

从成立之初到20世纪80年代末,我们是一个垂直行业。asic和其他芯片是由制造、测试和(有时)包装芯片的同一家公司设计的。在设计过程中,ASIC公司和客户之间有一个非常紧密的接口。大约在1985年(前后几年),当时我在AMI半导体公司——一家成熟的专用集成电路公司——我们处理了第一个人工耳蜗植入物的设计、制造、包装和测试。他们过去是,现在仍然是医学上的成功。

跳到20世纪90年代初。代工模式已经起飞,但像VLSI技术公司这样的公司仍然与同样采用ASIC设计-制造/封装/测试模式的公司密切合作。然而,无晶圆厂模式也如雨后春笋般涌现,集成器件制造商(idm)经历了垂直解体,成为一群竖井专业。

的确,我们看到许多第一次制造失败是因为“基本”设计问题。但我认为主要原因是,我们已经成为了一个由不同声音和观点的专家组成的行业。在开发的每个阶段,我们的团队之间缺乏凝聚力,因为每个团队代表着不同的公司和不同的理念。这就像胃痛去找10个医学专家,得到10个不同的意见,而不是去找一个全科医生,他会有一个全面的观点。

通过将任务保持在“一个屋檐下”,垂直集成模式利用管理人员监督整个ASIC开发过程,并可以在内部解决问题。当来自多家公司的多个团队试图保持步调一致时,为什么ASIC开发的成本如此之高,这有什么奇怪的吗?

每个公司都有自己的设计理念。同样适用于软件开发人员、代工厂、包装、组装和测试服务提供商。设计师与外部团队的紧密联系创造了解决问题的方法,当失败发生时,他们会在参与的公司中寻找原因。

军事计划遵循旧的“军事标准”。半导体行业应该制定更多的标准。SEMI有专门的委员会,我相信他们应该得到业界的支持。

我还建议,朝着垂直整合的方向发展是asic的发展方向。苹果、谷歌和其他公司现在都有内部ASIC设计师来处理芯片开发任务。在这样做的过程中,他们已经开始转向垂直化,以控制质量和保护他们的知识产权。

EDA和包装行业可能能够销售更多的软件,但我怀疑专家模式能否显著提高日益复杂的设计的首次成功率。

我想到两种想法:(1)人多误事。(2)专用集成电路(ASIC)的整个理念一如既往:一家公司为一家客户设计一款产品。时期。

Tanj班纳特 说:

我看到的模式是,想要特定功能的公司可能只需要芯片的一小部分。该芯片将需要IO总线、命令处理器、密钥库、芯片管理处理器、安全引导加载、内部总线或fabric等。其中有一些附加价值,这可能是少数。所以你会得到一个中间公司,它会把一些IP带到桌子上,专门组装整个团队,并就新的功能部件提供建议。对于一个有特殊目的的公司来说,留住一群硅设计师来增加他们的价值,甚至是几代人,可能是有道理的,但相对来说,很少有公司需要雇佣所有人,并提供职业发展道路等,如果你想留住最好的人,你就需要这些。所以,不管你喜不喜欢,厨房里会有好几个厨师,学会如何从团队合作中获得明星品质是很重要的。

Gavin骑手 说:

我已经参与半导体行业的标准化活动(通过SEMI)超过20年。我发现的问题往往是许多半导体公司不愿意遵守标准!SEMI标准往往被一些芯片制造商用作殴打供应商的棍棒,但如果随后发现问题是由于芯片制造商本身没有正确遵守标准,他们通常不会费心去纠正任何事情。

如果半导体行业真的采用了为他们制定的标准,那就太好了!

rcgorton 说:

几年前,我去Unisys公司(Sperry)面试。如果我没记错的话,他们的处理器是在几年前生产的(asic ?),它们被“保存”在一个保险库里。采访中一个有趣的花边新闻是,由于辐射,剩余芯片的故障率相当高。也就是说,这些处理器在“存储”之前通过了合格/测试/老化,但在安装到机器中时会失败。

留下回复


(注:此名称将公开显示)

Baidu