中文 英语

HBM3:对芯片设计的巨大影响

系统性能的新级别带来了新的权衡。

人气

从高性能计算到人工智能培训、游戏和汽车应用,对带宽的永不满足的需求正在推动下一代的发展高带宽内存

HBM3将带来2倍的带宽和每个堆栈的容量,以及一些其他好处。曾经被认为是一种“慢而宽”的存储技术,用于减少片外存储器中的信号传输延迟,现在这种技术正变得越来越快、越来越宽。在某些情况下,它甚至被用于L4缓存。

该公司首席研究工程师Alejandro Rico表示:“这些新功能将使每传输位焦耳的能源效率达到下一个水平,而且只使用hbm3内存解决方案,不需要额外的外包装内存。. “AI/ML、HPC和数据分析中的应用程序可以利用额外的带宽来保持扩展性能。正确利用HBM3带宽需要平衡的处理器设计,具有高带宽的片上网络和经过调整的处理元件,以最大限度地提高数据速率,同时提高内存级别的并行性。”

人工智能培训芯片通常需要1 TB的原始数据处理信息,HBM3正在达到这一水平,该公司IP核心产品营销高级总监Frank Ferro指出兰巴斯. “用户在开发ASIC以构建更好的捕鼠器来解决人工智能问题的同时,也在争取更多的带宽。每个人都在努力想出一种更高效的处理器来实现他们特定的神经网络,并以更好的内存利用率和CPU利用率更高效地实现这些网络。对于人工智能培训,HBM一直是首选选择它是因为它提供了最大的带宽、最佳的功率和最佳的占地面积。它稍微贵一点,但对于这些应用程序,尤其是进入云端的应用程序,它们可以负担得起。那里确实没有真正的障碍,特别是在一个插入器上有多个HBM。HBM3实际上只是一种自然迁移。”

图1:不同HBM版本的I/O速度。资料来源:Rambus/SK Hynix

图1:不同HBM版本的I/O速度。资料来源:Rambus/SK Hynix

杰德克尚未发布尚未批准的HBM3规范的详细信息,Rambus报告其HBM3子系统带宽将增至8.4 Gbps,而HBM2e的带宽为3.6 Gbps。实施HBM3的产品预计将于2023年初发货。

“如果芯片的关键性能指标是每瓦内存带宽,或者如果HBM3是实现所需带宽的唯一途径,则HBM3是有益的,”位于抑扬顿挫.“与基于pcb的方法(如DDR5、LPDDR5/5X或GDDR6)相比,这种带宽和效率的代价是在系统中增加额外的硅,并可能增加制造/组装/库存成本。额外的硅通常是一个插入器,以及每个HBM3 DRAM堆栈下面的一个基模。”

为什么这很重要
从那以后的十年里HBM自发布以来,2.5代标准已经进入市场。在那段时间里的数据量据Statista预测,创造、捕获、复制和消费从2010年的2泽塔比特增加到2020年的64.2兹布,到2025年这一数字将增长近三倍,达到181兹布。

“2016年,HBM2将信令速率提高了一倍,达到2gbps,带宽达到256gb /s。该公司的高级产品营销经理安妮卡·马尔霍特拉(Anika Malhotra)说Synopsys对此. “两年后,HBM2E问世,最终实现了3.6 Gbps和460 GB/s的数据速率。性能需求正在增加,高级工作负载对带宽的需求也在不断增加,因为更高的内存带宽现在是,将来也将继续是计算性能的关键促成因素。”

除此之外,为了更快地处理所有这些数据,芯片设计也变得越来越复杂,通常需要专门的加速器、片内和封装内存储器和接口。她说,HBM越来越被视为将异构分布式处理推到一个完全不同的水平的一种方式。

“最初,高带宽内存被图形公司明确的进化方向的一步,但是网络和数据中心社区意识到HBM可以添加一个新层的记忆内存层次结构更多的带宽,和所有的事情正在推动数据中心-更低的延迟,更快的访问,更少的延迟,更低的功耗。”Malhotra说。“通常情况下,cpu为容量进行优化,而加速器和gpu为带宽进行优化。然而,随着模型尺寸的指数增长,我们看到对容量和带宽的需求是不变的。我们看到了更多的内存分层,包括对软件可见的HBM + DDR的支持,以及使用HBM作为DDR支持的缓存的软件透明缓存。除了cpu和gpu, HBM也很受数据中心fpga的欢迎。”

HBM最初的目的是替代GDDR等其他内存,由一些领先的半导体公司,特别是英伟达和AMD推动。这些公司仍然在JEDEC工作组中大力推动其发展,英伟达是该工作组的主席,AMD是主要贡献者之一。

Synopsys内存接口IP产品营销经理Brett Murdock说,对于GPU,现在有两种选择。“一个选项仍然使用GDDR,在SoC周围有大量设备。另一个选项是使用HBM。使用HBM,您将获得更多的带宽和更少的物理接口来处理。折衷是总体成本更高。另一个优点是,物理接口更少,功耗更低。GDDR是一种非常强大的电源-饥饿的界面,但HBM是一个超级节能的界面。因此,在一天结束时,客户真正要问的问题是,‘我花我的钱的优先顺序是什么?’对于HBM3,这将真正开始向‘也许我想把这些钱花在HBM上’倾斜。”

尽管在最初推出时,HBM 2/2e仅面向AMD和Nvidia这两家公司,但现在它已经拥有了庞大的用户基础。当HBM3最终被JEDEC批准时,这种增长有望大幅扩大。

关键的权衡
芯片制造商已经明确表示,当系统中有插入器时,HBM3是有意义的,例如基于微晶片的设计已经为此使用了硅插入器。Cadence的Greenberg说:“然而,在许多系统中还没有插入器的情况下,像GDDR6、LPDDR5/5X或DDR5这样的pcb内存解决方案可能比添加插入器来实现HBM3更划算。”

然而,随着规模经济的发挥作用,这些权衡可能不再是一个问题。Synopsys的默多克表示,对使用HBM3的用户来说,最大的考虑是管理PPA,因为与GDDR相比,对于相同的带宽,HBM设备将具有更小的硅面积、更低的功率和更少的物理接口。

Murdock说:“此外,由于HBM设备位于IP端,与DDR、GDDR或LPDDR接口相比,如何在SoC上物理实现它们是一个荒野的西部。”。“你可以在芯片的侧面放置一个完整的线性PHY。你可以绕过一个角落。你可以将其自身折叠起来。实现物理接口的方法数不胜数。但是有了HBM,当你放下一个HBM立方体时,JEDEC已经准确地定义了立方体上的凹凸贴图的样子。用户会将其放在屏幕上。”插入器,它将紧挨着SoC,因此在SoC上构建凹凸贴图只有一个可行的选择,那就是匹配HBM设备。这将驱动物理层的物理实现。”

这些决策还会影响可靠性。虽然在颠簸的地方可能会有更少的灵活性,但增加的可预测性也意味着更高的可靠性。

“对于如何将这些东西连接在一起,有一些不同的选择,但在一天结束的时候,如果我看GDDR, LPDDR,或DDR,我可以建造一百万个不同的板,并以一百万个不同的方式连接它们,”他说。“这导致了上百万种不同的执行方式,以及上百万种不同的机会让某些人把事情搞砸。在HBM中,你放入PHY,放入设备,这两者之间的插入器很简单。这种插入连接对于Nvidia和AMD,英特尔,或者任何其他公司来说都是一样的。除了SoC和HBM设备之间的一些最小间距规则外,您将如何做到这一点并没有太多的可变性。差不多就是这样。这应该导致与工具团队的工作三维集成电路使两种设备之间的干扰器能够快速路由,因为在如何做到这一点上,真的没有太多的可变性。”

另一个影响可靠性的因素是某件事被做了多少次。“事实上,我们在为每一位客户做同样的事情,或者几乎是同样的事情,这意味着我们真的很擅长这一点,这是经过考验的事实。我知道这对AMD和他们出货的数百万台设备都有效,那么对于我们第一次销售HBM的新人工智能客户来说,这又有什么不同呢?我们不需要重新创造任何东西。

特别是2.5D和3D带来的复杂性,可以消除的变量越多越好。

Synopsys的Malhotra说,毫不奇怪,电源管理是AI/ML应用中的首要考虑因素,预计HBM3将得到广泛采用。“对于数据中心和边缘设备来说都是如此。权衡围绕着功率、性能、面积和带宽。对于边缘计算来说,权衡的复杂性不断增加,传统的PPA等式中增加了第四个变量——带宽。在AI/ML的处理器设计或加速器设计中,在计算功耗、性能、面积和带宽的权衡在很大程度上取决于工作负载的性质。”

确保它能工作
虽然HBM3的实现看起来足够简单,但没有什么是简单的。而且,由于这些内存通常用于任务关键型应用程序,因此确保它们按预期工作需要额外的工作。Joe Rodriguez,IP核心高级产品营销工程师兰巴斯表示,应该使用许多供应商提供的后硅调试和硬件启动工具来确保整个内存子系统按其应有的方式运行。

用户通常利用供应商提供的测试平台和模拟环境,这样他们就可以拿着控制器开始运行模拟,看看系统在HBM 2e/3系统上的表现如何。

Rambus公司的Ferro表示:“在考虑整体系统效率时,HBM的实际实施一直是一个挑战,因为面积太小。“这是件好事,但现在你有了CPU或GPU,你可能有4个或更多HBM dram,而且你的内存占用非常小。这意味着热量、功率、信号完整性、制造可靠性都是物理设计实施中必须解决的问题。”

图2:带HBM3内存的2.5D/3D系统架构。资料来源:兰巴斯

图2:带HBM3内存的2.5D/3D系统架构。资料来源:兰巴斯

为了从插入器和封装设计中获得最佳性能,即使在速度为3.2和3.6的HBM2e上,许多公司都在努力通过插入器获得良好的信号完整性。使事情复杂化的是,每个铸造厂对这些插入器都有不同的设计规则,有些比其他更具挑战性。

Ferro说:“有了HBM3,他们增加了层数,增加了插入层的能力——介电层的厚度等,使这个问题更容易解决。”。“但即使是在上一代,许多客户也会挠头说,‘如何让这台设备以每秒3.2千兆位的速度运行?’

结论
在可预见的未来,通往更高内存带宽的道路将继续,但即将推出的HBM3预计将开启系统设计的新阶段,将系统性能提升到一个新水平。

为了实现这一目标,行业参与者必须继续满足具有内存接口IP的数据密集型SOC的设计和验证要求,以及针对最先进协议(如HBM3)的验证解决方案。作为一个整体,这些解决方案应该缝合在一起,以便验证协议和时间检查器的规范遵从性,以及确保不会发生错误逃逸的覆盖模型。

相关的
HBM知识中心
关于HBM的顶级故事、视频、特别报告、白皮书等
哈佛商学院承担了更大的角色
高带宽内存可能是一项重要的网关技术,它允许行业向真正的3D设计和组装进行受控过渡。
架构插入器
在今天的设计中加入插入器并不容易,但随着皱纹的消除,新的工具、方法和标准将使它能够为大众所用。
单片3D DRAM会出现吗?
新的和更快的内存设计正在开发中,但它们的未来是不确定的。



留下一个回复


(注意:此名称将公开显示)

Baidu