中文 英语

HBM的作用要大得多

高带宽存储器可能是一项重要的网关技术,它允许行业在可控的情况下向真正的3D设计和组装过渡。

受欢迎程度

高带宽内存正变得越来越快,并出现在更多的设计中,但这种堆叠DRAM技术可能作为基于芯片的soc和真正3D设计的网关发挥更大的作用。

HBM越来越多地将其视为将异构分布式处理推向完全不同级别的一种方式。它曾经被认为是一种昂贵的技术,只能用于最高价值的设计,但它的应用范围正在扩大。它已经发展到行业中的一些人认为它是推动行业进入下一个系统开发阶段的最佳选择的地步。事实上,做空HBM可能不是明智之举。

HBM最初发布于2013年,是一种新的内存接口,利用堆叠更快通过硅与处理器相连插入器.存储器和SoC之间的连接是由中间层上的金属层构成的。它可以被认为是一个大芯片,其中另一个芯片被翻转并通过微凸点连接,或者是一个印刷电路板在包中。这通常被称为2.5 d集成。

不过,这可能只是第一步。即使不太可能安装在先进的节点上,硅中间体也能够内置主动电路。通过使用中间体作为被动互连,设计将可以自由地利用Z轴进行真正的3D集成。

HBM的第一个例子花了几年时间才投入生产使用,到2016年,第二代接口发布了。它的普及速度要快得多。在2018年,它获得了另一个速度和容量提升(HBM2e),并且HBM3的第一个示例已经宣布,尽管该标准尚未完成。

公司产品营销高级经理Graham Allan说Synopsys对此,解释了当今技术的性能。“HBM2在性能上经历了几次颠簸。它的起始带宽为2.4 Gb/s。然后上升到3.2,再上升到3.6。如果您将HBM的性能与片外内存子系统进行比较,包括带宽、性能效率(以皮焦耳/比特表示)、SoC上所需的海滨面积(这样您就不会受到限制)以及SoC上占用的总面积,那么HBM每次都胜出。HBM目前唯一没有获胜的地方是在整体产品成本方面,这是因为HBM是一种基于2.5D中间体的技术。”

目前存在各种用于连接内存和处理器的DRAM接口(见图1),每种接口都在某些领域表现出色。

图1:各种内存接口的比较。来源:Synopsys对此
图1:各种内存接口的比较。来源:Synopsys对此

HBM的路线图是激进的。Synopsys的艾伦说:“你会看到HBM3的容量和速度比我们现在的水平翻了一番。”“我们可以对其他技术做出类似的预测(见图2)。这说明了HBM的发展方向。它只会走得越来越远。”

图2所示。未来内存接口的预测。来源:Synopsys对此。

图2所示。未来内存接口的预测。来源:Synopsys对此。

这与别人的看法是一致的。“第二代高带宽内存(HBM2E)目前可用,可以实现每个包至少410GB/s的带宽,具有3.2Gbps的数据速率和宽(1024位)数据总线,”微软的杰出工程师Wendy Elsasser说手臂.“下一代高带宽内存HBM3的开发工作正在进行中,人们可以预期,这项技术的带宽能力将在DRAM世代之间提高2倍。”

不过,规模经济的发挥还需要时间。“dram本身的体积比主流的DDR5和LPDDR5要小,而且dram的成本总是与体积成正比。在产量显著增加之前,它们将比DDR5或LPDDR5更贵,但价格差距每个季度都在显著缩小。”

应用领域
它最初是作为图形处理器技术开发的,现在已经得到广泛应用。“今天在各种设备中有很多HBM的使用,”Mike Thompson说,高级产品线经理赛灵思公司

“当客户需要集成HBM时,他们真的非常需要它。他们通常有一些关键的问题要解决。前三名可能是具有计算加速、机器学习(ML)数据预处理和缓冲以及数据库加速和分析的数据中心应用程序。此外,我还看到了有线通信对安全设备(尤其是下一代防火墙)、网络过滤或负载平衡的搜索和查找应用程序、路由应用程序以及400gig交换机和路由器的大量需求。测试和测量将其用于网络测试、数据包捕获和数据捕获类型的设备。”

一般计算也在采用它。“您可以将HBM视为处理器的L4缓存,位于DDR接口和处理器之间,”Allan说。“我们开始看到客户在同一个SoC上同时寻找DDR5和HBM接口。DDR5用于需要在一个刀片上提供4TB潜在存储容量的地方。实际上,你可以在一个SOC周围安装六个HBM芯片,每个都是32GB。”

随着技术潜力的增长,不同的市场可能会关注不同的方面。Winbond Electronics DRAM市场部经理Jacky Tseng表示:“如今,使用1xmn工艺技术的8GB或16GB HBM 2.0非常流行。”“但有些应用程序希望看到更低的密度,比如1GB或2GB。这些应用程序非常需要带宽,未来它们将能够利用100GB/s的带宽。”

其他应用程序需要更多的存储空间。“HBM的好处实际上是它的高带宽,”Michael Frank说Arteris IP.“如果你有一个合适的工作数据集,那就没问题。为了消耗这么多带宽,您可能需要使用相当数量的硅区域来处理它。但是HBM不能提供从sram中获得的低延迟。你必须看看你的申请。你的算法是什么?在许多系统中,顺序地处理大量数据,通常使用相同的处理方案。就像SIMD或流媒体。机器学习通常是这样的,你有大量的数据集和权重。但HBM的产能仍然有限,价格也相对较高。”

下一代
虽然HBM3尚未公布,但业界已经在推进它的预标准版本。OpenFive就是一个例子,该公司最近发布了一款具有HBM3子系统的SoC。其HBM3接口被指定为7.2Gbps。

Arm的Elsasser说:“除了确保数据的可靠性和故障检测能力外,HBM3的开发还必须考虑实现电力中立。”“最后一个考虑因素是增加容量——每个模具容量和每个包装堆叠的模具数量的组合,这受到工艺、热和包装高度的限制。”

热正在成为一个大问题。Xilinx的汤普森表示:“热约束是推动HBM采用的首要因素之一。“如果将功耗与外部商品存储器进行比较,HBM解决方案的功耗降低了75%。与外部存储器相比,HBM从I/O中消耗了大量的能量,传统上是内存消耗大量能量的地方——不仅是在芯片本身,而且在I/O中。”

但包装的总热量必须考虑。Arteris的Frank说道:“事情开始变暖了。“没有什么比热更让dram讨厌的了,可能除了α粒子。炎热是它们最大的敌人。我们所说的刷新是因为泄漏,当温度升高时,泄漏会增加。”

这推动了包装的进步。汤普森说:“10年前,我们会采用全盖倒装芯片封装(图3a),而现在我们看到的是带加强环和内部集成共面模的无盖封装(图3b)。“无盖倒装芯片封装意味着设备上没有盖子,硅直接暴露在外。这使得散热器可以直接与硅本身接触。在许多情况下,由于散热器的效率更高,我们看到结温降低了10到20摄氏度。共面性也很重要。这意味着硅的顶部都在一个平面上。它们都在同一高度。如果无盖封装中的模具不在同一高度,这意味着要么具有挑战性,要么不可能让散热片与模具本身接触,从而减少散热。”

图3a:传统包装技术。来源:Xilinx

图3a:传统包装技术。来源:Xilinx

图3b:无盖包装技术。来源:Xilinx

图3b:无盖包装技术。来源:Xilinx

展望未来
HBM开始变得不仅仅是一个内存接口。越来越多地,它是一些可能改变行业的进步的推动者和测试工具。

HBM本质上是小芯片的成功演示。它还被用于演示在内存中进行处理的能力,并且它还支持各种级别的集成,从而提供全新的产品类别。

“HBM3技术只是一种不同方式的芯片技术,”艾伦说。“其中一个芯片是内存,另一个芯片是处理器芯片。很多人选择在芯片到芯片的通信中使用中间插入器,也选择在与外部DRAM的通信中使用中间插入器,因为这样可以获得一比二的好处。一旦你有了一个中间体,你就可以用多个模具来满足计算需求,也可以用多个模具来满足内存需求,所有这些都在同一个包中,而且不需要额外的成本。”

HBM本身是一个三维的模具堆栈。“HBM3似乎专注于真正的3D组装,”汤普森说。“这将有助于解决我们在整个行业中能够制造的设备的面积缩放问题。当我们在制作触及划线极限的插片和插片时,当然存在挑战,但这是因为插片和插片基本上都是2D解决方案。有了HBM3,我们将能够进入真正的3D解决方案,从而极大地降低了划线限制或模具尺寸和中间体限制。”

最近,三星(Samsung)又发生了另一件可能出人意料的事情。该公司集成了内存处理(PIM)和高带宽内存(HBM)。在这种情况下,PIM能够通过将AI引擎(三星称之为可编程计算单元(PCU))集成到内存核心中来处理一些逻辑功能。三星电子表示,在语音识别等AI应用中,PIM的性能比现有HBM提高了2倍,能耗降低了70%。

三星认为,这将刺激需要持续性能改进的AI应用程序的使用增长,如移动、数据中心和高性能计算。

这是通过创建HBM内存堆栈的物理方式实现的。“HBM通常有一个基本的芯片,它有控制器和一些其他接口逻辑,然后在它上面有DRAM堆栈,”Frank说。“如果你有一个应用程序可以利用它,构建一个底层有一些处理的堆栈是有意义的。基本上,它不是控制器,而是系统的接口。首先构建一个处理模具。这是一个大胆的举措,因为您必须构建足够多的这些接口来证明这一努力是值得的,但这是一种获得更好带宽的方法,因为您不依赖于向逻辑芯片输出的HBM接口,并且您不会浪费在堆栈中移动直接处理的数据的能量。话虽如此,如果你处理得足够充分,你就会遇到你的朋友——力量。”

创建近内存或内存计算机的尝试已经存在很长一段时间,但HBM可能为成功采用提供了平台。汤普森说:“这个方向是有道理的。“我看到的未来是大量人工智能处理、大量内存、大量可适应的计算逻辑结构,以及大量高速连接的融合。”

但与PIM相关的还有其他挑战。“它可以更容易地转移到数据的处理,特别是如果你有大量的数据,”Steven Woo说,研究员和杰出的发明家Rambus.“但挑战在于,对于那些想要尝试采用它的人来说,它必须具有商业意义。它还必须具有技术意义,能够重写应用程序或转换您现有的应用程序。将现有的应用程序转化为一种新的体系结构并不一定那么简单。”

跳出框框思考
将HBM仅仅看作一个DRAM接口可能太有局限性了。“你可以构建一个类似HBM堆栈的东西MRAMReRam弗兰克说。“这可能是一个有趣的产品,因为从技术上讲,你已经用它构建了一个完整的磁盘。如果内存是非易失性的,您可以构建一个完整的堆栈,其中最底层是逻辑,然后将内存层堆叠在其之上。尤其是磁存储器或者转矩传递(STT)记忆,你可能会有更好的表现因为这种材料对一点点热量更有弹性。事实上,比特更容易翻转,所以你的写入能量,这是STT的主要问题,可能会在堆栈变暖时下降,而且你有非易失性的优势。”

持续的集成会产生新的应用程序。汤普森说:“设计的体积越来越小,功耗越来越低,而处理能力却在不断提高。”“这使得在以前无法容纳的地方制造具有大量智能的设备成为可能,比如一个小尺寸的PCIe卡。在过去,这将需要多个高端设备,它根本不适合一个小的外形。我开始看到许多新的计算和安全应用程序的巨大吸引力,这些应用程序受到内存和带宽瓶颈的挑战,受到外形因素、功率和热约束的挑战。计算结构的超邻接性,可以是处理器或逻辑,在高带宽下可用的大量内存,以及非常高速的连接,这些都是使传统解决方案真正陷入死胡同的解决方案。”

因此,虽然HBM目前是增加图形处理器内存带宽的一种方式,但最终它可能会成为允许行业从2D到3D解决方案进行可控过渡的网关技术。

相关的
HBM知识中心
头条新闻,白皮书,视频,博客和更多关于HBM
确保HBM的可靠性
哪里可能出错以及如何找到它。
人工智能系统中的艰难记忆选择
权衡围绕着功率、性能、面积和带宽。
E代表进化
新版本的高带宽内存标准承诺更高的速度和馈源,仅此而已。



1评论

彼得·j·康奈尔 说:

令人着迷。谢谢。

留下回复


(注:此名称将公开显示)

Baidu