HBM的未来:必要的但价格昂贵

即将到来的版本的高带宽内存热有挑战性,但帮助可能。

受欢迎程度

高带宽内存(HBM)正在成为记忆hyperscalers的首选,但仍然存在一些问题在主流市场的最终命运。虽然在数据中心,建立与使用增长由于AI的要求/毫升,广泛采用抑制了其基本设计中固有的缺点。一方面,HBM提供了一个紧凑的2.5 d形式因素,使巨大的减少延迟。

“HBM的好处是得到所有这些带宽在一个非常小的足迹,你也会得到很好的功率效率,”弗兰克说,铁产品营销高级总监Rambus在本周的一个Rambus设计峰会。

不利的一面是,它依赖于昂贵的硅插入器和tsv函数。

图1:HBM栈最大的数据吞吐量。来源:Rambus

图1:HBM栈最大的数据吞吐量。来源:Rambus

”困扰的一件事现在成本高带宽内存,”马克·格林伯格说,集团产品营销主管在IP组节奏。“3 d堆叠是昂贵的。有一个逻辑死坐在堆的底部死了,这是一个额外的块硅你必须支付。然后有一个硅插入器,在CPU或GPU下的一切,以及HBM记忆。这是有成本的。然后,你需要一个更大的包,等等。有很多系统成本,取出HBM今日所存在的消费领域和更坚定的服务器房间或数据中心。相比之下,像GDDR6图形记忆,虽然他们不提供尽可能多的性能HBM,以更少的成本。单位成本性能GDDR6实际上是比HBM,但GDDR6设备不匹配的最大带宽的最大带宽HBM。”

这些差异提供了令人信服的理由,为什么公司解决HBM,即使它可能不是他们的第一选择,格林伯格说。“HBM提供了大量的带宽和能源per-bit-transferred极低。你使用HBM因为你,因为你没有其他解决方案,可以给你你想要的带宽,或电源配置文件,你想要的。”

和HBM只会越变越快。“我们预计HBM3 Gen2运送多达50%的带宽,改善“Praveen Vaidyanathan说,副总裁和总经理的微米计算产品组。“从微米的角度来看,我们预计我们批量生产的HBM3 Gen2提供的过程中我们的2024财政年度。早在2024年的一部分,我们希望开始导致预期的几亿美元的收入机会。此外,我们预测,微米比DRAM HBM3将提供更高的利润。”

不过,经济可能会迫使许多为价格敏感的应用程序设计团队要考虑的替代方案。

“如果有任何其他方式问题你可以细分成更小的部分,你会发现它更划算,”格林伯格说。“例如,而不是采取一个巨大的问题,说,“我必须执行所有这些在一个硬件,我必须有HBM,也许我可以把它分成两个部分,两个进程并行运行,也许DDR6相连。然后我可能以较低的成本完成相同数量的计算问题如果我可以细分成更小的部分。但是如果你需要巨大的带宽,那么HBM方法如果你能容忍成本。”

热的挑战
另一个主要缺点是HBM 2.5 d结构陷阱热,这是加剧了它的cpu和gpu附近放置。事实上,在试图给一个理论设计拙劣的例子,很难想出比当前的布局hbm,成堆的热敏性达利克,计算密集型热源附近。

“最大的挑战是热”,格林伯格说。“你有一个CPU,通过定义生成大量的数据。你把每秒通过这个接口。即使每个事务是一个小数量的焦耳,你做十亿的每一秒,所以你有一个CPU非常热。而且不只是移动数据。它必须计算。最重要的是至少是半导体组件,喜欢热,这是一个产品。它开始忘记东西约85°C,和完全心不在焉的大约125°C。这些是两个截然相反的东西。”

有一个可取之处。“有2.5 d堆栈的优势是,有一些物理CPU之间的分离,这是热的,和一个HBM坐在旁边,喜欢冷,”他说。

在延迟和热量之间的权衡,延迟是不可变的。“我不认为任何人牺牲延迟,”布雷特•默多克说,产品线总监内存接口IP解决方案Synopsys对此。“我看到他们推动物理团队找到一个更好的方法来冷却,或一个更好的方法来为了维持较低的延迟。”

鉴于挑战,multi-physics建模可以建议减少热的方法问题,但是有一个相关的成本。“这就是物理真的很艰难,”马克Swinnen产品经理有限元分析软件。“权力可能是第一个限制因素在集成可实现的是什么。任何人都可以设计一堆芯片和让他们所有的连接,以及所有可以完美的工作,但你无法冷静。得到的热量是一项基本限制什么是可以实现的。”

潜在的缓解措施,很快就会贵,从微流体通道沉浸在导电液体决定有多少球迷或鳍片散热片是必要的,以及是否使用铜或铝。

可能永远不会有一个完美的答案,但是模型和一个清晰的了解想要的结果可以帮助创建一个合理的解决方案。“你必须定义最优对你意味着什么,”同化。“你想要最好的热吗?最好的成本吗?两者之间的最佳平衡?和你打算如何权衡呢?答案依赖于模型物理知道实际上发生了什么。它依赖于人工智能这大量的复杂性和创建元模型捕获这个优化问题的本质,以及探索很快巨大空间。”

HBM和人工智能
很容易想象,计算是最密集的部分AI /毫升,没有好的内存架构会发生这一切。需要内存来存储和检索数以万亿计的计算。事实上,有一个点添加更多的cpu不会增加系统的性能,因为内存带宽没有支持他们。这是臭名昭著的“内存墙”的瓶颈。

机器学习在其广泛的定义,只是曲线拟合,根据史蒂夫罗迪,首席营销官二次曲面。“每次迭代训练,你想越来越接近一个最适合的曲线。这是x - y坐标图,就像在高中几何。大型语言模型基本上是相同的,但在100亿年的维度,而不是二维。”

因此,计算相对简单,但内存架构可以令人难以置信。

“这些模型有1000亿字节的数据,和在每一个迭代中进行再教育,你需要1000亿字节的磁盘的数据在数据中心的底板和计算盒子,“罗迪解释道。“你要移动这个巨大的字面上来回设置内存值数百万次的为期两个月的训练。限制因素是移动数据,这就是为什么HBM或光学互联的兴趣从内存来计算结构。这些东西都是人们涌入数十亿美元的风险资本,因为如果你可以缩短距离或时间大大简化和缩短训练过程,无论是切割电源或超速的训练。”

所有的这些原因,高带宽内存同意选择AI /毫升的记忆。“这是给你的最大带宽,你需要一些训练算法,“Rambus铁说。”和可配置的角度看,可以有多个内存堆栈,它给你很高的带宽。”

这就是为什么有这么多的HBM的兴趣。“我们的大多数客户是AI客户Synopsys对此”他说。“他们正在一个大基本LPDDR5X接口和一个HBM接口之间的权衡。唯一的阻碍他们前进的是成本。他们真的想去HBM。这是他们心中的愿望在技术方面,因为你不能触摸的带宽可以创建一个SoC。现在,我们看到六HBM堆栈把周围一个SoC,也就是大量的带宽”。

然而,AI的要求是如此之高,以至于HBM减少延迟的尖端签名突然过时和不足。反过来,是推动HBM推动下一代的。

“延迟是成为一个真正的问题,”铁说。“HBM的前两轮中,我没听到有人抱怨延迟。现在我们让问题延迟。”

鉴于目前的限制,尤其重要的是要了解你的数据,建议铁。“这可能是连续的数据,如视频或语音识别。可能是事务性的,像财务数据,可以很随机的。如果你知道数据是随机的,你建立了一个内存接口将不同流媒体视频。这些都是基本的问题,但也会更深。是什么尺寸我要用这个词在我的记忆里?记忆的块大小是什么?你知道的越多,更有效地你可以设计您的系统。如果你理解它,那么您可以定制处理器计算能力和内存带宽最大化。我们看到很多ASIC-style出类拔萃,在特定的细分市场的更高效的处理”。

使它更便宜(可能)
如果经典HBM实现是使用硅插入器,有希望低成本解决方案。”也有方法,你只是一小块硅嵌入一个标准的包,所以你没有一个完整的硅插入器扩展下一切,”格林伯格说。“你只有一个CPU和HBM之间的之间的桥梁。此外,有进步允许细针的音高标准包装技术,这将大大降低成本。也有一些专有的解决方案,人们试图连接一个内存高速并行转换器连接类型,按照UCIe,可能连接在这些记忆。现在,这些解决方案是专有的,但我将寻找那些成为标准化。”

格林伯格说,可能是平行发展的轨迹:“硅插入器并提供最好的销球或钢丝球可能——基本上,最带宽最少的能源,所以硅插入器将始终存在。作为一个行业,但如果我们可以聚在一起,决定一个内存标准,适用于一个标准的包,将有可能给带宽相似,但以更少的成本。”

目前正在为下一代努力降低成本。“台积电已经宣布他们有三种不同类型的插入器,“铁说。RDL插入器”他们有,他们有硅插入器,他们有事,看起来有点像一个混合的两个。还有其他的技术,比如如何摆脱完全插入器。你可能会看到一些原型出来在未来12或18个月如何栈3 d内存上和理论上摆脱插入器。IBM多年来一直这么做,但现在,你不需要一个IBM。”

另一个解决这个问题的方法是使用更少的昂贵的材料。“有很好的研究有机材料,如果他们可以小到可以处理所有这些痕迹,“铁说。“此外,UCIe连接芯片的另一种方法是通过更多的标准材料节省节省成本。但是,您仍然需要解决的问题通过这些基质成千上万的痕迹。”

默多克看起来规模经济来降低成本。“成本方面将有所缓解HBM越来越受欢迎。任何DRAM, HBM是商品市场的最后一天。在插入器方面,我不看到的那样快。这个仍然是一个挑战去克服。”

但原始成本并不是唯一的考虑。“这也可以归结为SoC需要多少带宽,和其他成本,如董事会空间,例如,”默多克说。“LPDDR5X是一个非常受欢迎的选择对于那些想要一个高速接口,需要大量的带宽,但是LPDDR5X渠道的数量匹配所需的HBM堆栈是相当可观的。你有很多设备成本,和你有很多板空间成本可能让人难以接受。只是美元而言,它也可能是一些可能使人HBM物理限制,即使dollars-wise更加昂贵。”

其他人则不太确定对未来降低成本。“HBM成本减少将是一个挑战,”吉姆说方便,首席分析师客观分析。“处理成本已经大大高于标准DRAM,因为晶片的高成本将tsv。这可以防止它拥有一个标准DRAM市场一样大。由于市场规模较小,规模经济导致成本更高,以本身的过程。量越低,成本越高,成本越高,数量越少会被使用。没有简单的方法。”

然而,方便HBM的未来持乐观态度,指出它仍然铅笔而SRAM。“HBM已经是一个成熟的JEDEC-standard产品,”他说。“这是一个独特的形式的DRAM技术提供极高的带宽比SRAM以相当低的成本。它也可以打包提供更高的密度比和SRAM是可用的。它将改善随着时间的推移,就像DRAM。随着接口成熟,期待看到更多聪明的技巧,将会增加它的速度。”

事实上,所有的挑战,有明确的HBM乐观的原因。“标准正在迅速,”铁补充道。“如果你看看HBM进化的这些天,大约在两年的节奏,这真是一个惊人的速度。”

进一步的阅读
选择正确的高带宽内存
新的应用程序需要深刻理解不同类型的DRAM的权衡。

接下来的高带宽内存
不同的方法分解内存墙。



留下一个回复


(注意:这个名字会显示公开)

Baidu