中文 英语

新的内存会增加新的错误

为什么现有的测试方法并不总是有效,以及还需要做些什么来确保可靠性。

受欢迎程度

新的非易失性存储器(NVM)为改变我们在片上系统(soc)中使用内存的方式带来了新的机会,但它们也为确保它们按预期工作带来了新的挑战。

这些新的内存类型——主要是MRAM和ReRAM——依赖于独特的物理现象来存储数据。这意味着在大批量生产之前,可能需要新的测试序列和故障模型。同样,建立旧记忆的新方法,比如闪存,也可能会带来新的错误。

“为了开发合适的测试算法,无论是针对MRAM、SRAM、5nm、3nm还是RF,都需要分别进行研究,”ibm硬件分析和测试部门的首席技术专家Yervant Zorian说Synopsys对此.“必须在其中进行故障注入,提取故障模型,并开发算法。”

了解不同存储机制的细微差别有助于激发可能需要的任何新的测试或检查,以确保错误的比特单元不会被运送。它还强调了一个事实,即任何新的存储单元在发布之前都必须搜索新错误。

在许多情况下,在新流程中查找错误是一个标准流程。例如,当将标准逻辑单元移动到另一个流程节点时,必须对其进行检查,以确保测试能够捕捉到由于新布局而导致的任何潜在错误,并且可以删除新布局不再需要的任何测试。

在这些情况下,未知因素大多是已知的,最佳实践可以帮助确保推出好产品。但有些变化更为显著,它们呈现出更多未知的未知。当使用一种全新的方式构建现有电路时,甚至当调用一些以前从未使用过的新物理时,就会出现这种情况。

布鲁克公司技术和应用开发总监塞缪尔·莱斯科(Samuel Lesko)表示:“要找出一个新的技术节点或新一代设备是很棘手的,因为以前没有人这样做过。”虽然这听起来很明显,但这是一个必须正面面对的真正挑战。

发现新nvm故障
NVM开发人员正在探索以一种优于主流闪存技术的方式存储数据的新现象。相变存储器(PCRAM)基于其之前的使用情况已经得到了较好的理解,但STT-MRAM和ReRAM仍在向市场进军。

MRAM作为嵌入式NVM, NVM正在慢慢进入soc和asic领域。ReRAM与此同时,在过去几年里,它一直备受期待。但这两种方法都没有达到足够的产量来学习产量和降低成本。

事实上,仍有一些新的机制可能需要在生产中进行测试。这些表示技术特有的情况,可能要到开发过程的后期才会发现。

在这一点上,需要了解潜在的机制,以便在最好的情况下,可以完全消除问题。但工作的结果往往是一种测试,可以经济地应用,以确保良好的材料。

这些nvm的测试可能会引入一些基本的差异。在ReRAM的情况下,有一个“形成”步骤,确定未来灯丝或通道的位置。考试时就会这样。ReRAM和MRAM都有校准要求。因此,我们所谓的“测试”可能包括校准——如果设备有冗余,也包括修复。

“我们总是这么说静态存储器需要测试和修理,”佐里安说。“对于mram和reram,你需要校准、测试,然后修复。”


图1:当破坏性变化发生时,必须特别考虑新的故障。在左边,flash显示了一个新的实现,3D NAND。新的错误可能在发布时发现,或者在扩展以添加更多层时发现,甚至在生产学习期间发现。在右边,flash被两种新的存储技术所取代,它们需要检查与物理相关的新的故障机制。资料来源:Bryon Moyer/Semiconductor Engineering

ReRAM切换故障
一个ReRAM例子[1],来自今年的欧洲考试研讨会(ETS)。提出由莫里茨反击炮从代尔夫特理工大学,它处理形成步骤。ReRAM的工作原理是通过电介质建立或移除导电路径。不过,这条道路的具体运作方式可能有所不同。一些移动金属离子,一些移动氧空位,但它们都创建了一个通道,每次创建时可能略有不同。

有几种方法可以建立这个通道,即所谓的双极切换或互补切换。双极开关是理想的行为,其中在电池末端的帽吸收或捐赠离子或氧空位。但偶尔,由于仍在分类的原因,这个帽可能被饱和,使它无法接受更多的离子。这就导致了互补开关。

问题是这种情况的发生是不可预测的。他说:“你可以有100个没有故障发生的周期,最多有3个出现故障的周期,然后100个周期中一切都恢复正常。”

这反过来会降低逻辑状态的强度,甚至随着时间的推移。这不是一个罕见的问题。在代尔夫特理工大学的设备样本中,40%在某种程度上表现出了这种影响。

可以通过查找未定义状态的单元格(即介于1和0之间的某个位置)来检测故障。但由于这种情况并不经常发生,因此测试数组中的每个位会导致非常长的时间和不经济的测试。对设备施加压力可以使效果更加突出,但可能会产生其他负面后果。

虽然ECC有时可以是底层故障模式的全面解决方案,但在这种情况下它不起作用。“你可以使用ECC来防止从0到1切换的故障单元,”Fieback说。“但ECC也需要能够检测到未定义的状态。我不知道ECC会为ReRAM做到这一点。”

提供的建议是给设计师一个测试模式,使检测未定义的状态更容易和更快。

校准mram
ETS的另外两篇论文谈到了为决定每个单元的1或0的感应安培削减参考电压的挑战。这两种方法都利用内存内置自测(MBIST)来确定调整设置应该在哪里。

第一篇MRAM论文[2]由卡尔斯鲁厄理工学院的研究员Christopher Münch发表,重点研究了阵列中比特单元之间的温度变化。与标准CMOS晶体管相比,这些电池的温度变化更大。

“MTJ(磁隧道结)的电阻行为是温度依赖的,这意味着,在大约-40到125°C的有趣工作范围内,P(平行)状态下的电池的电阻几乎是恒定的,而AP(反平行)状态下的电池的电阻随着温度的升高而降低,”Münch说。“如果我们一起观察晶体管和MTJ的电阻行为,我们可以看到晶体管的电阻行为抵消了MTJ在P状态下的位移,并额外引入了单元AP状态上的位移。而且一个细胞状态的变化比另一个更大——晶体管在一个方向上补偿,在另一个方向上加剧。”

目标是确保高温行为可以在不需要额外昂贵的高温测试的情况下建模。他们能够模拟从低温到高温的外推,以便用于识别电池分布的MBiST运行可以在低温下运行,并且仍然提供确定在高温下工作的配平电压所需的信息。

另一篇MRAM论文[3]处理了在这样的过程中使用传统MBiST的挑战之一。通常,MBiST用于识别有问题的单元格,一旦发现,测试将暂停,同时下载数据进行进一步分析。但在这个应用中,mist在不同的修剪电压下重复运行,以搜索单元分布的边缘。这些边通过单元格失效而被发现。

对于MBiST函数来说,在每次遇到这种失败时停止并下载数据是不切实际且耗时的。然而,将这种能力排除在外,就会消除潜在的诊断和学习机制。

“虽然可以预期,在训练过程中,某些存储单元可能会产生错误的读取值,即使选择了正确的参考电阻,但由于多种原因,如容量、提高产量学习、片上修复等,了解故障存储单元的确切位置是有益的,”来自斯坦福大学的演示人员Artur Pogiel解释道西门子

因此,提供这些数据是有用的,但不是通过反复停止整个校准过程来做到这一点。

相反,该团队所做的是注意到这个校准是在任何逻辑测试完成之前运行的,并且一些逻辑测试硬件可以重用。特别是,嵌入式确定性测试(EDT)使用输出结果的压缩,以便在测试期间输出。

在这种情况下,可以使用一个具有低模尺寸冲击的附加卷积压实器来获得MBiST结果。这允许在校准过程继续进行时下载信息,而不会减慢过程。

Pogiel说:“提出的方案假设重用测试数据压缩工具,这些工具通常可在芯片上用于测试逻辑。”“因此,我们的方案产生的硬件开销很低,可以归结为一个单一的测试响应压缩器。”

其他MRAM现象
根据其结构和多变的磁场,MRAM还会出现其他独特的故障。Siemens在创建测试策略时确定了mram特定故障列表。

由MgO制成的MRAM隧道氧化物中的针孔可以降低电池的电阻,使读取过程不准确。“不均匀的MTJ接口(MgO - CoFeB)会降低MTJ的极化电流流,导致更广泛的写电阻水平分布,这反过来会导致动态故障和可靠性问题,”西门子EDA的Tessent内存技术专家Jongsin Yun说。

另外,在某些情况下,一个细胞的磁场会影响到相邻的细胞。单元中的特定桥接缺陷会导致间歇性读取失败。如果桥接的电阻足够低,那么每次读取都会失败。但在中等水平的情况下,故障是零星的。

同时,在写入操作后,杂散残磁异常会导致一个介于编程和非编程之间的中间状态。修改后的写操作可以帮助清理单元格状态。

还有一种现象叫做“回跳”,即刚刚编程的细胞可能会自发地跳回之前的状态。它似乎与参考层的一部分有关——它总是被认为处于一个固定的状态——本身被翻转了。

“测试起来很棘手,因为这种不受欢迎的翻转会导致位元电阻进入p态或ap态,”Yun观察到。“这些缺陷隐藏在NVM存储器本身依赖温度的随机行为中。”

后端处理步骤可能导致位单元中的电移位。Yun解释说:“构建MTJ堆栈后的集成和封装过程可能会导致电阻和TMR(隧道磁电阻)比率的变化。”

这些都是可能影响测试和读写操作的考虑因素,而这些操作反过来又会影响可靠性。但目前尚不清楚其中有多少将继续与全面生产相关。

“虽然这些缺陷对研究人员来说很有趣,但它们在统计学上的相关性仍有待观察,”Yun说。“有关该主题的可用数据是制造商严格保守的秘密。”

闪光灯也不能幸免
与此同时,NAND闪存也远远谈不上新颖。然而建造它的方法发生了巨大的变化3 d与非.物理原理是一样的,但物理结构是不同的。3D NAND正在以一种其他设备无法企及的方式推动堆叠技术的发展。

NAND公司总裁兼首席执行官Subodh Kulkarni指出:“在NAND领域,堆叠有其自身的复杂性CyberOptics

与平面版本相比,薄膜的堆叠创造了一个全新的特征。薄膜的堆叠意味着平整度很重要,但薄膜在温度变化时表现良好也很关键。到目前为止,情况就是这样,但是层数已经急剧增长到今天的176层,未来可能会有更多的层。

该公司产品营销经理Woo Young Han表示:“随着3D NAND器件层数的增加,更多的薄膜和热应力被应用到晶圆上。上的创新.“这导致晶圆破损的增加。”

虽然在单个晶圆上的压力可能还可以,但在晶圆切成丁之前,这种影响可能会在晶圆上成倍增加。“暴露导致晶圆斜角上的小裂缝增大,然后热应力和薄膜应力最终导致晶圆断裂,”Han说。“我们的3D NAND客户经历了晶圆破损的增加,他们正在寻找一种晶圆边缘(斜角)检测解决方案,以防止晶圆破损。”

破损对破碎的晶圆显然是不好的,但对设备来说更糟糕。Han表示:“当晶圆在工艺工具的腔室内破裂时,工艺工具需要取下几天进行清洁和重新鉴定。”“它非常昂贵,而内存制造商试图避免这一点。”

这种突发情况导致了检查需求,而不是一组新的测试。这样做的好处是,在不良材料引起更多问题之前,它就被从生产线上删除了。然后,测试保持原样,其中大部分已经由JEDEC建立。

Weebit首席技术官Ishai Naveh表示:“我们认为除了JEDEC测试之外,没有更多的需要。“有时人们希望我们的测试时间更长或更严格——不一定是因为物理,而是因为,‘你是新人,你需要用他们这些年收集的所有统计数据来证明自己。’”

Tough-to-predict缺点
第一个例子说明了引导一项全新技术走向商业发布时通常需要的过程。问题可能直到确认的后一阶段才被发现,因为不太明显的错误被发现。

flash的例子表明,即使一种新方法已经证明了它的有效性,但继续扩展它可能会在未来的道路上发现新的问题。新的效果可能只有在新的缩放版本准备推出时才会显现出来。或者,在诸如模具开裂的情况下,可能要到生产批量运行时才能识别。

工具和系统过程可以在一定程度上帮助识别意外行为。在探索未知时,自动化可以帮助确保尽可能详尽的过程。

Synopsys公司的Zorian说:“这种工具采用位元及其邻近区域,在不同的点注入缺陷,然后根据这些缺陷的电平、电压和温度来进行操作。”“所以整个环境在不同的条件下被复制。它考虑到了布局,我们甚至进入了晶体管内部,”他指出,并广泛谈论了新存储器和其他新技术,如finfet。“假设一个设备使用了带有特定鳍片的特定节点。在模型中,我们折断鳍,缩短鳍,等等。”

这种方法通常依赖于通过多年的记忆积累的知识。但是,新的物理机制越新颖,就越难预测可能出错的地方。

结论
一种新方法越具有创新性,就会有越多未知的未知。这并不一定是新闻,但重要的是要记住,当一些重要的新技术进入市场的时候。

参考文献

  1. M.反馈等人,“ReRAMs中的间歇性未定义状态故障”,2021年第26届IEEE欧洲测试研讨会(ETS)
  2. C. Münch等人,“mbist支持的Trim调整以补偿MRAM的热行为,”2021年第26届IEEE欧洲测试研讨会(ETS)
  3. B. Grzelak,“基于卷积紧致的MRAM故障诊断”,2021年第26届IEEE欧洲测试研讨会(ETS)

相关的
NVM可靠性的挑战和权衡
解决了什么,没有解决什么,以及为什么这些不同的技术如此重要。
MRAM正向多个方向发展
但一种方法不能适用于所有情况,需要进行微调。
更多的数据,更多的内存扩展问题
DRAM、闪存和新存储器的挑战依然存在。
驯服新奇的NVM非确定性
人们正在竞相寻找一种更容易使用的非易失性闪存替代品。



1评论

阿里Mahdoum 说:

在内存中产生故障数据的另一个原因可能是由于并行(寄生)互连。这些寄生(电阻、电容和电感)可能会影响记忆单元的正常行为。解决这个问题的一个有前景的解决方案(但从区域角度来看昂贵)是在每一对连续的记忆字之间插入一根电线(连接到地面)。这些额外的电线还将减少静态功耗(这反过来又将降低温度,提高存储器的可靠性)。

留下回复


(注:此名称将公开显示)

Baidu