18lk新利
的意见

改进高带宽内存的可靠性监控

深度数据分析如何实现现场HBM监测和修复。

受欢迎程度

随着对带宽和速度的不断追求,引入了具有先进内存架构的多芯片技术。随着这些异构封装的复杂性不断发展,新的可靠性挑战也随之出现。

一种新的HBM子系统监测和修复方法提供了先进的现场可靠性保证。通过对芯片agent生成的数据进行分析,proteanTecs的Proteus提供了系统生命周期运行的可操作见解和警报。

什么是高带宽内存(HBM)?
高带宽内存(HBM)是一种特殊形式的堆叠内存架构,它与处理单元集成以提高速度,同时减少延迟、功耗和大小。它为下一代超级计算机、图形系统和人工智能(AI)等高带宽应用提供了优质DRAM产品。

HBM正在迅速发展,以满足数据中心和网络行业不断变化的需求,该技术已经在市场上获得了显著的采用,预计到2022年将以32%的复合年增长率增长¹。HBM是JEDEC通过²于2013年10月成为行业标准,其第二代HBM2于2016年1月被接受。

HBM可靠性挑战
HBM子系统由于采用三维集成技术,可见性受到本质限制,信号完整性问题难以调试、验证和监控。多模HBM封装带来了新的可靠性挑战,可能导致现场功能器件故障。这些技术本身既复杂又昂贵。因此,系统故障会给制造商和服务提供商造成重大损失。

由于高密度路由,HBM物理不允许u-bump冗余,每个信号一个u-bump用于整个HBM连接。PHY或HBM u-bump中的任何一个问题都会导致芯片操作失败。典型的4xHBM2包含13600个u-bump用于连接,这带来了可靠性挑战和HBM子系统故障的风险。在测试中,一个失败的模块会给制造商带来巨大的经济损失。在现场运行过程中,HBM子系统的故障可能会影响整个系统,并导致突然的运行故障和计划外停机。

HBM子系统的测试使用行业标准检测工具进行,这些工具缺乏参数敏感性,因此无法检测到边缘车道。随着时间的推移,这些可能会导致劣化,并最终在使用寿命期间失效。此外,检测故障车道需要在测试模式下激活。因此,不监控任务模式中随时间的退化。

现场可靠性监测
proteanTecs的Proteus引入了HBM的可见性,减轻了异构封装的固有限制和复杂性。该软件平台将分析应用于片上代理(IPs)创建的数据,定制以表示和自动覆盖特定设计。通过持续监测信号完整性,Proteus为可靠性监测和维修提供了可操作的见解,每个引脚和任务模式,以检测退化趋势。


图1:HBM可靠性的Proteus。

Proteus提供了一种将车道退化与远端(FE)和近端(NE)洞察相关联的新方法,这是ASIC和DRAM驱动器强度、NE和FE微碰撞完整性、Rx灵敏度和插入物的函数。

通过对近端或远端信号的边际性能发出警报,服务提供商可以执行预测性维护。Proteus识别出故障车道更换的潜在候选车道,并将信息提供给车道修复机制,该机制在计划的维护周期中将边缘车道替换为冗余车道。这可以防止由于信号质量退化超过边际限制而导致的系统故障。


图2:退化监测和警报

在系统启动和表征时,该工具可以虚拟探测每个引脚的信号幅度和回转率,作为嵌入式“示波器”,而不会影响被测信号。这提供了在系统表征和验证期间每个引脚HBM信号参数的可见性,缩短了上市时间,实现了产品优化,并增加了对升级的信心。

随着异构封装复杂性的不断发展,Proteus提供了一种革命性的HBM现场监测方法,以获得前所未有的可靠性保证。服务提供商现在具有执行预测性维护所需的可见性,在系统故障之前检测和修复故障。

来源:
1.市场报告全球:2019年高带宽内存市场研究
2.https://www.jedec.org/standards-documents/docs/jesd235a



留下回复


(注:此名称将公开显示)

Baidu