的意见

改进高带宽内存的可靠性监控

深度数据分析如何实现现场HBM监测和修复。

2019年12月10日-由:Eyal Fayneh

随着对带宽和速度的不断追求，引入了具有先进内存架构的多芯片技术。随着这些异构封装的复杂性不断发展，新的可靠性挑战也随之出现。

一种新的HBM子系统监测和修复方法提供了先进的现场可靠性保证。通过对芯片agent生成的数据进行分析，proteanTecs的Proteus提供了系统生命周期运行的可操作见解和警报。

什么是高带宽内存(HBM)?
高带宽内存(HBM)是一种特殊形式的堆叠内存架构，它与处理单元集成以提高速度，同时减少延迟、功耗和大小。它为下一代超级计算机、图形系统和人工智能(AI)等高带宽应用提供了优质DRAM产品。

HBM正在迅速发展，以满足数据中心和网络行业不断变化的需求，该技术已经在市场上获得了显著的采用，预计到2022年将以32%的复合年增长率增长¹。HBM是JEDEC通过²于2013年10月成为行业标准，其第二代HBM2于2016年1月被接受。

HBM可靠性挑战
HBM子系统由于采用三维集成技术，可见性受到本质限制，信号完整性问题难以调试、验证和监控。多模HBM封装带来了新的可靠性挑战，可能导致现场功能器件故障。这些技术本身既复杂又昂贵。因此，系统故障会给制造商和服务提供商造成重大损失。

由于高密度路由，HBM物理不允许u-bump冗余，每个信号一个u-bump用于整个HBM连接。PHY或HBM u-bump中的任何一个问题都会导致芯片操作失败。典型的4xHBM2包含13600个u-bump用于连接，这带来了可靠性挑战和HBM子系统故障的风险。在测试中，一个失败的模块会给制造商带来巨大的经济损失。在现场运行过程中，HBM子系统的故障可能会影响整个系统，并导致突然的运行故障和计划外停机。

HBM子系统的测试使用行业标准检测工具进行，这些工具缺乏参数敏感性，因此无法检测到边缘车道。随着时间的推移，这些可能会导致劣化，并最终在使用寿命期间失效。此外，检测故障车道需要在测试模式下激活。因此，不监控任务模式中随时间的退化。

现场可靠性监测
proteanTecs的Proteus引入了HBM的可见性，减轻了异构封装的固有限制和复杂性。该软件平台将分析应用于片上代理(IPs)创建的数据，定制以表示和自动覆盖特定设计。通过持续监测信号完整性，Proteus为可靠性监测和维修提供了可操作的见解，每个引脚和任务模式，以检测退化趋势。

图1:HBM可靠性的Proteus。

Proteus提供了一种将车道退化与远端(FE)和近端(NE)洞察相关联的新方法，这是ASIC和DRAM驱动器强度、NE和FE微碰撞完整性、Rx灵敏度和插入物的函数。

通过对近端或远端信号的边际性能发出警报，服务提供商可以执行预测性维护。Proteus识别出故障车道更换的潜在候选车道，并将信息提供给车道修复机制，该机制在计划的维护周期中将边缘车道替换为冗余车道。这可以防止由于信号质量退化超过边际限制而导致的系统故障。

图2:退化监测和警报

在系统启动和表征时，该工具可以虚拟探测每个引脚的信号幅度和回转率，作为嵌入式“示波器”，而不会影响被测信号。这提供了在系统表征和验证期间每个引脚HBM信号参数的可见性，缩短了上市时间，实现了产品优化，并增加了对升级的信心。

随着异构封装复杂性的不断发展，Proteus提供了一种革命性的HBM现场监测方法，以获得前所未有的可靠性保证。服务提供商现在具有执行预测性维护所需的可见性，在系统故障之前检测和修复故障。

来源:
1.市场报告全球:2019年高带宽内存市场研究
2.https://www.jedec.org/standards-documents/docs/jesd235a

Eyal Fayneh

(所有的帖子)
Eyal Fayneh是proteanTecs的联合创始人，也是该公司的硅技术高级首席工程师。在成立公司之前，Fayneh在英特尔工作了20年，在那里他担任锁相环和时钟生成的高级首席工程师。Fayneh拥有40多项专利，并拥有特拉维夫大学电气工程学士学位。

改进高带宽内存的可靠性监控

Eyal Fayneh

留下回复取消回复

技术论文

热门文章

真正的3D比2.5D更难

围绕小芯片形成的小型财团

是否存在RISC-V验证所需的工具?

异构集成带来的机械挑战

人工智能在芯片设计中越来越突出

知识中心
探索实体、人员和技术

相关文章

真正的3D比2.5D更难

浮点8能解决AI/ML开销吗?

RISC-V推向主流

围绕小芯片形成的小型财团

选择正确的高带宽内存

RISC-V芯片有多安全?

是否存在RISC-V验证所需的工具?

芯片技术和行业动态即将发生重大变化

赞助商

最近的评论

关于

导航

与我们联系

改进高带宽内存的可靠性监控

Eyal Fayneh

留下回复取消回复

技术论文

热门文章

真正的3D比2.5D更难

围绕小芯片形成的小型财团

是否存在RISC-V验证所需的工具?

异构集成带来的机械挑战

人工智能在芯片设计中越来越突出

知识中心探索实体、人员和技术

相关文章

真正的3D比2.5D更难

浮点8能解决AI/ML开销吗?

RISC-V推向主流

围绕小芯片形成的小型财团

选择正确的高带宽内存

RISC-V芯片有多安全?

是否存在RISC-V验证所需的工具?

芯片技术和行业动态即将发生重大变化

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
探索实体、人员和技术