中文 英语

使用HBM3提高性能和功率

新的内存标准增加了显著的好处,但它仍然昂贵且使用复杂。这种情况可能会改变。

受欢迎程度

HBM3大大加快了内存和处理器之间的数据移动速度,降低了发送和接收信号所需的功率,提高了需要高数据吞吐量的系统的性能。但使用这种内存既昂贵又复杂,短期内可能还会如此。

高带宽内存3 (HBM3)是最新加入HBMJEDEC开发的在单个模块内堆叠DRAM层的规范。它于2022年1月推出,被视为2.5D封装的重大改进。但是HBM3仍然很昂贵,部分原因是内存本身的价格,部分原因是其他组件的成本,如硅中间体和开发2.5D设计所需的工程。这限制了DRAM的应用仅限于容量最大的设计,或对价格不敏感的应用,如数据中心的服务器,由于数据通道更多、更宽,以及在处理元件和DRAM之间来回驱动信号所需的功率更低,内存的成本可以通过性能的提高来抵消。

这有助于解释为什么HBM3首先出现在NVIDIA的“Hopper”H100企业级GPU中,而英特尔和AMD的产品紧随其后。与HBM2E相比,HBM3提供了几个增强功能,最显著的是HBM3的带宽从3.6 Gbps增加到6.4Gbps,即每台设备的带宽为819 Gbps。

“带宽是支持更大的(计算)引擎所需要的,”AMD客户端PC业务高级副总裁兼首席技术官Joe Macri说。“如果你看看我们正在解决的很多问题,就会发现它们的带宽非常大,无论是机器学习还是hpc类型的解决方案。因此,即使我们只选择适度增加引擎尺寸,我们仍然可以从带宽的增加中获益良多。”

除了容量和速度的提高,能源效率的提高也是值得注意的。HBM3的核心电压为1.1V,而HBM2E的核心电压为1.2V。HBM3还将I/O信号降低到400mV,而HBM2E为1.2V。未来几代人也会有进一步的改进。

英特尔存储器产品执行副总裁Jim Elliot表示:“一旦进入10nm时代,就必须考虑不同的缩窄技术,例如高k金属栅极,我们必须不断提高内存带宽。三星半导体他在最近的一次演讲中说。“有低电阻材料,因为我们必须推动DRAM组件的电池尺寸限制。还有宽带隙材料,因为我们正在寻找泄漏的10倍改进,以及用于DRAM的finfet,这将使我们能够继续将功率扩展到0.9伏以上。”


图1:三星的新款HBM3。来源:三星

然而,这一切都不容易。在制造这种技术和充分利用这种技术方面都将面临重大挑战。与过去不同的是,一个先进的架构可以在数十亿个单元中发挥作用,其中许多设计都是定制的。例如,在人工智能领域,几乎每个人都在构建自己的定制人工智能训练芯片,并专注于HBM。它有两种使用方式——要么作为系统中唯一的内存,要么与DRAM一起使用。

富士通(Fujitsu)基于arm的A64fx就是前者的一个例子。Fugaku曾经是世界上最快的超级计算机,A64fx在CPU旁边的芯片上有32GB的HBM2,但没有其他系统内存。其他的,如AMD的Instinct,英伟达的H100 GPU,以及英特尔的CPU Max和GPU Max,都有HBM伴随标准DRAM,其中HBM就像DRAM的大型缓存。

头号敌人:高温
使用HBM的最大挑战是热量。众所周知,内存和热量不能同时使用,但HBM3将与世界上最热门的芯片和系统一起使用。例如,英伟达的H100有700瓦的热设计功率(TDP)限制。

马克里说,对于Frontier,橡树岭国家实验室的超级计算机——Epyc cpu和Instinct gpu(使用HBM2E)的组合——需要AMD进行一些创造性的负载平衡,以将温度保持在限制范围内。


图2:Frontier超级计算机。资料来源:橡树岭国家实验室

Frontier上的一些工作负载是内存密集型的,一些是cpu密集型的,平衡工作负载以避免过热是在芯片上完成的,而不是在软件上。马克里说:“对于微处理器来说,它们的全部工作就是管理这些控制循环,使系统处于尽可能好的位置。”

Frontier是由HPE的Cray部门与AMD合作建造的,在系统设计层面上处理负载平衡以管理热。“我们共同设计了这个解决方案,”他说,“根据正在完成的工作,动态地操纵它以产生最大的性能。”

在HBM和控制器中都有硬件功能,允许它限制内存,并将其置于不同的性能状态,甚至转换到更低的频率,Frank Ferro说Rambus.“如果开始成为一个热点,你想降低频率或降低功率,并将内存置于空闲模式,这些基本上都是在IP级别和DRAM级别。在DRAM层面,你已经具备了这种能力,但如何使用它取决于系统架构师。”

密度的限制
HBM3面临的第二个热挑战来自内存本身。与HBM2E的12层限制相比,HBM3标准允许多达16层。但马克里认为,由于高温,它将停留在12层。不过,对于定制设计来说,不同的供应商以及不同的用例可能会有所不同。

堆栈中底部的DRAM具有最高的热阻抗,这是堆叠的主要限制因素。HBM使用微凸点连接不同的DRAM模具,微凸点有其缺点。由于内存会产生热量,热量会在每个层面上累积,而微小的凸起并不能有效地将热量传递出去。这反过来又限制了DRAM的实际层数。因此,即使HBM3可以支持16层,在大多数情况下将使用更少的层。

DRAM的每一层都需要自己的功率传输,这需要足够的功率来获得足够的性能。推动电力输送会增加每一层的热量。

现在是2.5D
HBM中间体一直保持在2.5D,这并不是因为热挑战。2.5D设计是内存放在处理器旁边的原因。在真正的3D设计中,内存将位于CPU/GPU的顶部,并直接与芯片对话。cpu最高可达300瓦,gpu最高可达700瓦,热量太大了。

“挑战在于,如果你产生了大量的热量,你就会踩在微小的凸起上,这些凸起真的不能很好地将热量传递出去。所以这就是为什么几乎每个人都在做2.5D,因为微点技术确实限制了你可以在它下面的芯片上投入的电量。”马克里说道。

随着3D-IC的全面实现,这种情况将有所改变。Ferro说:“如果你是3D的,这个物理层就会变得不那么复杂,所以有很多优势。”“你摆脱了调停者。芯片之间的物理接口变得不那么复杂,因为你不需要通过另一种介质进行连接。所以有很多优势,但也有很多挑战。”

例如,使用现有技术很难冷却3D-IC,因为位于芯片顶部的内存实际上与下面的ASIC或GPU绝缘。在平面SoC中,热量是由硅本身散发的。但在3d - ic中,需要使用更复杂的方法,部分原因是热量可能会被困在层之间,部分原因是这些设备中使用的薄晶片无法消散那么多。

“当你把一个内存芯片堆栈放在GPU顶部时,GPU的热量需要在它消散之前通过内存,或者在它到达冷板之前。所以你现在突然面临着一个不同的挑战,”美光科技公司HPM产品管理高级总监Girish Cherussery说。“我认为我不会看到把现有的HBM直接堆叠在GPU或消耗400、500瓦功率的ASIC上。但这在未来会发生吗?这是一个可以实现的解决方案。”

扣篮芯片
这是一个更大的问题和挑战的一部分,即如何保持这些数据中心的凉爽和节能,而热解决方案是保持环境可持续发展的瓶颈之一。Cherussery指出:“浸没式冷却似乎是该行业正在考虑的解决方案之一,

浸入式冷却可能是唯一真正的解决方案,因为它不像空气和液体冷却那样使用冷板。它包括将主板(包括CPU和内存)浸入一种不导电的辩证法流体(通常是矿物油)中,只有NIC、USB和其他端口从流体中伸出来。

这在数据中心尤其重要,因为服务器的冷却机架每年要花费数百万美元。美国数据中心的平均电力使用效率(PUE)评级约为1.5。得分越低,数据中心的效率越高,但不能低于1.0。高于1.0的每一个点都是用于冷却数据中心的功率,因此当PUE为1.5时,数据中心用于冷却的总功率的一半。

沉浸式学习是非常有效的。一个香港数据中心的PUE等级为1.01。液冷数据中心已经降至1.1范围,但1.01是闻所未闻的。该数据中心仅将1%的电力用于冷却。

浸入式冷却长期以来一直处于冷却技术的边缘,只在极端情况下使用,但它正在慢慢成为主流。香港数据中心背后的公司LiquidStack已经获得了一些风险投资,微软也记录了它在一个数据中心使用LiquidStack产品的试验。微软提高了电源使用效率,但它也发现它可以在不损坏芯片的情况下超频。因此,未来HBM真正的3D堆叠路径很有可能是通过装满矿物油的油箱。

供应商之间的差异
Macri指出,DRAM供应商之间相互竞争,就像SoC供应商一样,这意味着一些HBM功耗较低,而一些HBM功耗较高。“到处都有良好的竞争。这很重要,因为它推动创新,”他说。

这种回旋余地也可能导致问题。他说,在指定功率方面没有标准。每个DRAM制造商都在以功耗和价格为关键变量,以最佳方式设计内存,以实现最佳的最终结果。

马克里说:“更好的东西比不太好的东西更贵,这也很重要,因为有不同的系统目标,这取决于公司和他们使用它的目的。”

但是,DRAM本身符合JEDEC标准。所以从理论上讲,你应该能够从一个供应商那里获得一个DRAM,然后用另一个供应商替换它,这限制了这种差异。

“我们的工作是否有很多重叠和相似之处?当然。”“它们完全一样吗?”也许有一点不同,但没有根本的不同。你必须和每个供应商一起经历这个过程,因为可能会有一点点变化。”

自HBM2E以来,可测试性和RAS(可靠性、可用性、可伸缩性)功能有了显著的改进。HBM3还处理了在DRAM中有芯片ECC的需求,只是为了使DRAM非常可靠。“这是非常非常重要的,因为生成的任何错误都需要返回或修复,这增加了延迟,”他说。

其他挑战
因为HBM目前是2.5D,这增加了内存的大小限制。SoC的大小,加上HBM芯片的数量,加起来需要更大的冷却面积。

费罗说:“这是我们面临的另一个挑战。“你就是不能变大,因为东西会从包装上掉下来。所以我们必须非常注意确保我们的纵横比是正确的,并且我们不会超过任何这些尺寸限制。”

在使用HBM时,您希望利用其最大的属性,即带宽。但要设计出利用这种带宽的方法并不容易。“你想要非常密集的浮点单元,这是一个挑战,”马克里说。“DRAM不喜欢随机访问。所以你要设计你的参考垫使它对HBM非常友好。你要从中获得最大的效率,这是非常困难的。”

结论
HBM3在HBM2E标准的基础上提供了一些改进。有些是意料之中的(带宽激增),有些是意料之外的(RAS改进,更新的时钟方法)。总而言之,新标准为用户提供了用于下一代soc的HBM内存的显著改进。但至少到目前为止,它还不是一个即插即用的解决方案。



留下回复


(注:此名称将公开显示)

Baidu