中文 英语

选择正确的高带宽内存

新的应用需要对不同类型DRAM的权衡有深刻的理解。

受欢迎程度

构建高性能芯片的选择越来越多,但附加存储器的选择几乎没有变化。为了在汽车、消费者和超大规模计算中实现最大性能,选择归结为一种或多种口味的DRAM,最大的权衡是成本与速度。

尽管多年来人们一直在努力用更快、更便宜或更通用的内存取代DRAM,甚至将其嵌入到SoC中,但DRAM仍然是这些架构中必不可少的组件。但DRAM制造商并没有一成不变,而是根据性能、功耗和成本推出了多种选择。这些仍然是最基本的权衡,要解决这些权衡,就需要深刻理解内存将如何使用,所有部件将如何连接,以及芯片或将使用它的系统的关键属性是什么。

"即使在宏观经济形势下,对更大带宽存储器的需求仍将呈现非常强劲的趋势,"英特尔高级产品管理总监Frank Ferro表示Rambus.“有很多公司都在研究不同类型的内存架构。这包括解决带宽问题的各种方法,无论是具有大量片上内存的处理器,还是其他方法。虽然这种方法将是最便宜和最快的,但容量相当低,所以人工智能算法必须为这种类型的架构量身定制。”

Chiplets
不过,这仍然没有减少对附加内存的需求。总体而言,向异构计算(尤其是小芯片)的发展只会加速对高带宽内存的需求,无论是HBM、GDDR6还是LPDDR6。

HBM是三者中最快的。但到目前为止,HBM一直基于2.5D架构,这限制了它的吸引力。Ferro说:“2.5D插入器仍然是相对昂贵的技术。”“供应链问题对事情没有太大帮助。在过去的两年里,这种情况有所缓解,但当你在做这些复杂的2.5D系统时,它确实突出了一些问题,因为你必须结合很多组件和基材。如果其中任何一个部件无法提供,就会打乱整个流程,或者造成很长的交货时间。”


图1:HBM堆栈的最大数据吞吐量。来源:Rambus

将HBM连接到其他封装方法(如扇出)或使用不同类型的中间物或桥接来堆叠芯片的工作已经进行了一段时间。这些将变得至关重要,因为更多的前沿设计包括某些类型的先进封装,这些封装可能在不同的工艺节点上开发。

“很多HBM领域实际上更多的是关于制造问题,而不是知识产权问题,”美国市场研究集团产品营销总监马克•格林伯格(Marc Greenberg)表示节奏的IP组。“当你有一个内部有硅中间体的系统时,你需要弄清楚如何构建一个内部有硅中间体的系统。首先,你将如何在那里生产硅中间体?它比普通的硅晶片要大得多。它必须被稀释。它必须和它上面的各种骰子成键。它需要包装。HBM解决方案需要大量的专业制造。这最终超出了IP领域,更多地进入了ASIC供应商和osat的领域。”

汽车用高带宽存储器
HBM正在获得极大兴趣的领域之一是汽车。但仍有障碍需要克服,目前还没有如何解决这些障碍的时间表。

“HBM3具有高带宽、低功耗和良好的密度,”该公司产品营销总监布雷特·默多克(Brett Murdock)说Synopsys对此.“唯一的问题是太贵了。这是记忆的一个败笔。HBM的另一个缺点是,它还不具备汽车领域的资质,尽管它将是一个理想的选择。在汽车行业,正在发生的一件有趣的事情是所有的电子设备都在集中。随着这种集中化的发生,基本上现在有一个服务器在你的主干中。有这么多的事情发生,它不一定总是发生在单个SoC或单个ASIC上。所以现在汽车公司开始研究芯片,以及如何在他们的设计中使用芯片,以获得他们在集中领域所需的所有计算能力。简洁的是,小芯片的一个潜在用途是插入物。如果他们现在使用中间人,他们并没有解决HBM的中间人问题。 They’re solving the interposer problem for the chiplet, and maybe HBM gets to come along for the ride. Then, maybe, it’s not quite as expensive anymore if they’re already doing chiplet designs for a vehicle.”

HBM是一个自然的选择,因为大量的数据需要在车辆中快速移动。“如果你想想一辆汽车上的摄像头数量,所有这些摄像头的数据速率以及处理所有信息的速度都是天文数字。HBM是所有汽车行业人士都想去的地方。”“对于他们来说,成本可能并不是那么高,因为它只是把技术整理好,把车内的插入器整理好,把HBM设备的汽车温度整理好。

不过,这可能需要一段时间。与此同时,德国民主共和国似乎是一颗冉冉升起的新星。虽然它的吞吐量比HBM更有限,但对于许多应用来说仍然足够,并且已经符合汽车标准。

Rambus的Ferro说:“HBM绝对会应用于汽车领域,让汽车与不动的物体对话。”“但在赛车方面,GDDR做得很好。LPDDR已经存在于汽车中,您可以用GDDR替换许多LPDDR,从而获得更小的占用空间和更高的带宽。然后,随着人工智能处理速度的提高,LPDDR5和LPDDR6开始达到相当可观的速度(现在分别接近8Gbps和10Gbps),它们也将成为汽车上非常可行的解决方案。目前仍将有少量DDR,但LPDDR和GDDR将成为汽车行业最受欢迎的技术。”

Cadence的格林伯格表示,这种方法可能在相当长的一段时间内都很有效。“一个仅仅使用标准PCB和标准制造技术的解决方案,似乎比试图在方程中引入硅中间体,并使其符合温度或振动或10年的使用寿命更明智。将HBM解决方案应用于汽车似乎比将内存放在PCB上的gdr -6更具挑战性。如果我在一家汽车公司负责一些汽车项目,我只会在最后的时候选择HBM。”

边缘AI/ML内存需求
GDDR和LPDDR5,甚至LPDDR6,也开始看起来像一些边缘加速器卡的可行解决方案。

Ferro说:“对于进行边缘AI推理的PCIe卡,我们已经在NVIDIA等公司的加速器卡上看到了GDDR。”“现在我们看到越来越多的公司愿意考虑替代方案。例如,Achronix正在其加速卡中使用GDDR6,并开始研究如何使用LPDDR,尽管速度仍然只有GDDR的一半左右。它在慢慢地往上爬,密度也增大了一些。这是另一个解。这是一个很好的权衡。它们提供了性能和成本效益,因为它们仍然使用传统的pcb。你把它们焊接在模具上。如果你过去使用过DDR,你可以扔掉很多DDR,用一个GDPR或两个lpddr代替它们。这也是我们现在所看到的情况,即开发者正在努力寻找如何在成本、功能和价格之间取得平衡。 That’s always a challenge at the edge.”

一如既往,权衡是许多因素的平衡。

格林伯格指出,在当前人工智能革命的早期阶段,第一批HBM存储器正在使用。“人们采用的是一种成本无目标/带宽无目标的方法。HBM非常自然地适合这种情况,在这种情况下,有人想要有一个典型的孩子,说明他们可以从系统中获得多少带宽。他们会基于HBM构建一个芯片,根据该芯片的性能指标获得风险投资,没有人真的太担心它的成本。现在我们看到的是,也许你需要一些好的指标,也许是HBM所能达到的75%,但你希望它的成本只有一半。我们怎么做呢?我们所看到的GDDR的吸引力在于,它可以实现低成本的解决方案,但带宽肯定接近HBM空间。”

默多克也看到了做出正确记忆选择的困难。“对于高带宽需求,他们通常会做出成本权衡的决定。我应该去HBM吗?如果不是因为成本因素,HBM通常非常适合这个应用程序?我们有客户向我们询问HBM,试图在HBM和LPDDR之间做出决定。这是他们做出的选择,因为他们需要带宽。他们可以在这两个地方中的任何一个得到它。我们已经看到工程团队在SoC周围放置了多达16个LPDDR接口实例来满足他们的带宽需求。当你开始谈论这么多的例子时,他们会说,‘哦,哇,HBM真的非常符合要求。’但归根结底还是成本问题,因为很多公司只是不想支付HBM3带来的溢价。”

HBM还需要考虑架构方面的问题。“HBM一开始就是一个多通道接口,所以有了HBM,一个HBM堆栈上就有32个伪通道,”Murdock说。“有16个频道,所以实际上是32个伪频道。伪通道是在每个伪通道的基础上执行实际工作负载的地方。所以,如果你有16个伪通道,而不是你把很多不同的LPDDR实例放到你的SoC上,在这两种情况下,你都必须在你的整体通道定义中找出你的流量是如何指向整体地址空间的。在这两种情况下,你都有很多渠道,所以可能没有太大的不同。”

对于AI/机器学习开发人员来说,LPDDR通常是bi-32包,然后有2-16位通道。

“在你的架构中,你有一个基本的选择,”他解释道。从系统的角度来看,我是否应该将内存上的两个16位通道视为真正独立的通道?还是我把它们放在一起,让它看起来像一个32位的频道?他们总是选择16位通道,因为这样可以提供更高性能的接口。在内存中,我有两个通道。我有两倍的打开页面,我可以通过页面点击来减少我的整体系统延迟。拥有更多更小的通道会使系统表现更好,这就是我们在HBM中看到的情况。从HBM2e到HBM3,我们特意去掉了通道和伪通道大小,以应对这类市场。我们甚至在DDR4的DDR5中也看到了。我们从DDR4的64位通道到DDR5的一对32位通道,每个人都喜欢更小的通道尺寸,以帮助提升整体系统性能。”

对于边缘AI推理,Greenberg一直在观察这些应用走到最前沿,并发现gdr -6是一项伟大的技术。“有很多芯片都想拥有这种功能。这使得人工智能推理接近边缘,因此你可能会接收多个摄像头输入或多个其他传感器输入。然后,在边缘使用人工智能,你可以深入了解你正在处理的数据,而不是将所有数据发送回服务器来完成该功能。”

格林伯格预计很快就会有很多芯片问世,这些芯片将具有各种有趣的功能,而无需向服务器发送大量数据。他预计GDDR6将在其中发挥重要作用。

“前几代GDDR主要针对显卡,”他说。“GDDR6有很多功能,使其更适合作为通用内存。事实上,虽然我们确实有用户将其用于显卡,但大多数人实际上是将其用于人工智能边缘应用程序。”“如果你需要尽可能多的带宽,而且你不在乎它的成本,那么HBM是一个很好的解决方案。但如果你不需要那么多带宽,或者成本是一个问题,那么GDDR6在这个领域很有优势。GDDR6的优点是它可以在标准FR4 PCB上完成。制造过程中不需要特殊材料。没有特殊的工艺,甚至PCB本身也不需要背钻。它不需要有隐藏的通道或类似的东西。”

最后,GDDR领域的最后一个趋势是努力使GDDR更有利于消费者。他说:“它仍然有一些对图形引擎非常有利的规范,但作为一项技术,GDDR正在向消费者方向发展。”“随着gdr类型技术的更广泛部署,它将继续朝着这个方向发展。”



留下回复


(注:此名称将公开显示)

Baidu