HBM3:对芯片设计的重大影响

新的系统性能水平带来了新的权衡。

2021年10月14日-到:安Mutschler

从高性能计算到人工智能训练、游戏和汽车应用，对带宽的无尽需求正在推动下一代网络技术的发展高带宽内存．

HBM3将为每个堆栈带来2倍的带宽和容量，以及其他一些好处。在片外存储器中减少信号传输延迟的存储技术，曾经被认为是“慢而宽”的，现在正变得明显更快、更宽。在某些情况下，它甚至被用于L4缓存。

该公司首席研究工程师Alejandro Rico表示:“这些新功能将使每传输位焦耳的能源效率提高到一个新的水平，并且更多的设计只有hbm3内存解决方案，没有额外的外包装内存。手臂．AI/ML、HPC和数据分析中的应用程序可以利用额外的带宽来保持性能扩展。HBM3带宽的合理利用需要平衡的处理器设计，具有高带宽片上网络和处理元素，以最大限度地提高数据速率，增加内存级并行度。”

AI训练芯片通常需要1tb的原始数据处理信息，而HBM3正在达到这一水平，该公司IP核产品营销高级总监Frank Ferro指出Rambus．“用户在开发asic以构建更好的捕鼠器来解决人工智能问题时，正在推动更多带宽。每个人都在尝试用更高效的处理器来实现他们特定的神经网络，并通过更好的内存利用率和CPU利用率来更高效地实现这些网络。对于人工智能训练，HBM一直是首选，因为它提供了最大的带宽、最佳的功率和最佳的占地面积。这有点贵，但对于这些应用程序——尤其是云应用程序——他们可以负担得起。这里真的没有真正的屏障，特别是在一个插入物上有多个HBMs。HBM3实际上只是一种自然迁移。”

图1:不同HBM版本的I/O速度。资料来源:Rambus/SK Hynix

而电平虽然尚未公布尚未批准的HBM3规范的细节，但Rambus报告称其HBM3子系统带宽将增加到8.4 Gbps，而HBM2e的带宽为3.6 Gbps。实施HBM3的产品预计将于2023年初发货。

“如果芯片的关键性能指标是每瓦内存带宽，或者如果HBM3是实现所需带宽的唯一途径，HBM3是有益的，”华为IP集团产品营销总监Marc Greenberg说节奏．“与DDR5、LPDDR5/5X或GDDR6等基于pcb的方法相比，这种带宽和效率的代价是系统中额外的硅，并且可能会增加制造/组装/库存成本。额外的硅通常是一个中间体，以及每个HBM3 DRAM堆栈下面的基础芯片。”

为什么这很重要
在此后的十年里HBM第一次宣布，2.5代标准已经进入市场。在那段时间里，数据量根据Statista的数据，创建、捕获、复制和消费从2010年的2 ZB增加到2020年的64.2 ZB，并预测到2025年这一数字将增长近三倍，达到181 ZB。

“2016年，HBM2将信令速率提高了一倍，达到2 Gbps，带宽达到256 GB/s。公司高级产品营销经理Anika Malhotra说Synopsys对此．两年后，HBM2E问世，最终实现了3.6 Gbps和460 GB/s的数据速率。性能饥渴正在增加，高级工作负载对带宽的需求也在不断增加，因为更高的内存带宽现在是，而且将继续是计算性能的关键推手。”

除此之外，为了更快地处理所有这些数据，芯片设计变得越来越复杂，通常使用专门的加速器、片上和封装内存储器和接口。她说，HBM越来越被视为一种将异构分布式处理推向完全不同水平的方式。

Malhotra说:“最初，显卡公司认为高带宽内存是朝着进化方向迈出的明确一步，但随后网络和数据中心社区意识到HBM可以在他们的内存层次结构中增加一层新的内存，以获得更大的带宽，以及推动数据中心发展的所有东西——更低的延迟、更快的访问、更少的延迟、更低的功耗。”“通常，cpu针对容量进行优化，而加速器和gpu针对带宽进行优化。然而，随着模型尺寸的指数级增长，我们看到对容量和带宽的需求不断增加，而且没有权衡。我们看到了更多的内存分层，其中包括对软件可见的HBM和DDR的支持，以及使用HBM作为DDR支持的缓存的软件透明缓存。除了cpu和gpu, HBM在数据中心fpga上也很受欢迎。”

HBM最初是作为GDDR等存储器的替代品，由一些领先的半导体公司推动，特别是Nvidia和AMD。这些公司仍然在JEDEC任务小组中积极参与推动其发展，英伟达是主席，AMD是主要贡献者之一。

Synopsys内存接口IP产品营销经理Brett Murdock表示，对于gpu来说，目前有两种选择。“一种选择仍然使用GDDR，围绕SoC有大量的设备。另一种选择是使用HBM。使用HBM，您将获得更多带宽，需要处理的物理接口更少。代价是整体成本更高。另一个优点是物理接口更少，功耗更低。GDDR是一个非常耗电的接口，但HBM是一个超级节能的接口。所以在一天结束的时候，客户真正要问的问题是，‘我把钱花在什么地方最重要?对于HBM3，这真的会开始倾斜平衡，‘也许我想把这些钱花在HBM上。’”

虽然HBM 2/2e最初推出时被降级到某些利基市场，但由于AMD和Nvidia是唯一的用户，HBM 2/2e现在拥有非常大的用户安装基础。当JEDEC最终批准HBM3时，预计这一增长将大幅扩大。

关键的权衡
芯片制造商已经明确表示，当系统中有一个中间体时，HBM3是有意义的，例如基于芯片的设计已经为此使用了硅中间体。Cadence的Greenberg说:“然而，在许多情况下，在系统中还没有插入器的情况下，像GDDR6、LPDDR5/5X或DDR5这样的pcb上内存解决方案可能比增加一个能够实现HBM3的插入器更具成本效益。”

然而，随着规模经济的发挥作用，这种权衡可能不再是一个问题。Synopsys的Murdock说，使用HBM3的用户最大的考虑是如何管理PPA，因为与GDDR相比，在相同的带宽下，HBM设备的硅面积更小，功率更低，需要处理的物理接口更少。

Murdock说:“此外，与DDR、GDDR或LPDDR接口相比，在IP端使用HBM设备，如何在SoC上实现它们的物理实现就像狂野的西部。”“你可以在模具一侧放置一个完整的线性PHY。你可以绕过一个拐角。你可以把它自己折起来。有无数种方法可以实现这个物理接口。但是对于HBM，当您向下放置一个HBM多维数据集时，JEDEC已经准确地定义了该多维数据集上的凹凸映射的样子。用户将把它放在插入器上，它将紧挨着SoC，因此如何在SoC上构建凹凸映射实际上只有一个可行的选择——那就是匹配HBM设备。这推动了PHY的物理实现。”

这些决策也会影响可靠性。虽然在颠簸的地方灵活性可能会降低，但增加的可预测性也意味着更高的可靠性。

他说:“对于如何将这些东西连接在一起，中间有一些不同的选择，但最终，如果我看看GDDR、LPDDR或DDR，我可以建造一百万个不同的板，并以一百万种不同的方式连接它们。”“这导致了一百万种不同的实现方式，以及人们把事情搞砸的一百万种不同机会。使用HBM，你放入PHY，你放入设备，两者之间的中间体很简单。对于英伟达来说，这种中间商连接将与AMD、英特尔或其他任何公司一样。除了SoC和HBM设备之间的一些最小间距规则外，你要如何做到这一点没有太多的可变性。差不多就是这样。这将导致与工具团队一起工作三维集成电路为了能够在两个设备之间快速路由中间体，因为在如何做到这一点上，真的没有太多的可变性。”

另一个影响可靠性的因素是某件事做了多少次。“事实上，我们为每一位客户做同样的事情，或者几乎是同样的事情，这意味着我们真的很擅长，这是经过考验的事实。我知道这对AMD和他们出货的数百万台设备都很有效，那么为什么对我们第一次销售HBM的新AI客户会有任何不同呢?我们不需要重新发明任何东西，”默多克说。

特别是考虑到2.5D和3D带来的复杂性，可以消除的变量越多越好。

Synopsys的Malhotra表示，电源管理是AI/ML应用的首要考虑因素，预计HBM3将被广泛采用。“对于数据中心和边缘设备来说都是如此。权衡围绕着功率、性能、面积和带宽。对于边缘计算，权衡在复杂性上继续增长，在传统的PPA方程中添加了第四个变量——带宽。在AI/ML的处理器设计或加速器设计中，在计算功率、性能、面积和带宽的权衡时，很大程度上取决于工作负载的性质。”

确保它能正常工作
虽然HBM3的实现看起来很简单，但没有什么是简单的。由于这些内存通常用于关键任务应用程序，因此确保它们按预期工作需要额外的工作。乔罗德里格斯，高级产品营销工程师IP核Rambus他说，应该使用许多供应商提供的后硅调试和硬件启动工具来确保整个内存子系统正常运行。

用户通常利用供应商提供的测试平台和模拟环境，这样他们就可以拿着控制器开始运行模拟，看看系统在HBM 2e/3系统上的表现如何。

Rambus的Ferro说:“在考虑整体系统效率的同时，HBM的物理实现一直是一个挑战，因为你的面积太小了。”“这是一件好事，但现在你有了一个CPU或一个GPU，你有了四个或更多的HBM dram，而且你的占用空间非常小。这意味着热量、电源、信号完整性、制造可靠性都是物理设计实施中必须解决的问题。”

图2:采用HBM3内存的2.5D/3D系统架构。来源:Rambus

为了从插入器和封装设计中获得最大的性能，即使在速度为3.2和3.6的HBM2e中，许多公司也难以通过插入器获得良好的信号完整性。更复杂的是，每个晶圆代工厂对这些中间体都有不同的设计规则，有些比其他的更具挑战性。

Ferro说:“使用HBM3，他们增加了层数，并增加了介电厚度等中间体的能力，使这个问题更容易解决。”“但即使是在上一代产品中，很多客户也在挠头问，‘你怎么才能让这东西以每秒3.2千兆比特的速度运行?’”

结论
在可预见的未来，通往更高内存带宽的道路还将继续，但即将推出的HBM3有望开启系统设计的新阶段，将系统性能提升到一个新的水平。

为了实现这一目标，行业参与者必须继续解决具有内存接口IP的数据密集型soc的设计和验证需求，以及针对HBM3等最先进协议的验证解决方案。作为一个整体，这些解决方案应该缝合在一起，以允许对协议和时间检查器的规范合规性进行验证，以及覆盖模型，以确保不会发生错误逃逸。

相关的
HBM知识中心
顶级故事，视频，特别报道，白皮书和更多的HBM
HBM的作用要大得多
高带宽存储器可能是一项重要的网关技术，它允许行业在可控的情况下向真正的3D设计和组装过渡。
架构设计插入器
在今天的设计中加入中间人并不容易，但随着问题的解决，新的工具、方法和标准将为大众提供帮助。
单片3D DRAM会出现吗?
新的更快的内存设计正在开发中，但它们的未来是不确定的。

安Mutschler

(所有的帖子)
Ann Mutschler是《半导体工程》杂志的执行编辑。

HBM3:对芯片设计的重大影响

安Mutschler

留下回复取消回复

知识中心博客

中央处理器(CPU)

数据中心

图形处理器(GPU)

边缘计算

3 d

先进的包装

2.5 d

包装

机器学习(ML)

人工智能(AI)

技术论文

热门文章

RISC-V推向主流

向小芯片进军

启动资金:2022年11月

高级节点IC应力影响可靠性

RISC-V解耦向量处理单元(VPU)用于高性能计算

知识中心
探索实体、人员和技术

相关文章

芯片架构的基本变化

内存设计如何优化系统性能

启动资金:2022年10月

启动资金:2022年11月

高级节点IC应力影响可靠性

重新思考机器学习的动力

热设计

芯片功率分布建模在7nm以下变得至关重要

赞助商

最近的评论

关于

导航

与我们联系

HBM3:对芯片设计的重大影响

安Mutschler

留下回复取消回复

知识中心博客

中央处理器(CPU)

数据中心

图形处理器(GPU)

边缘计算

3 d

先进的包装

2.5 d

包装

机器学习(ML)

人工智能(AI)

技术论文

热门文章

RISC-V推向主流

向小芯片进军

启动资金:2022年11月

高级节点IC应力影响可靠性

RISC-V解耦向量处理单元(VPU)用于高性能计算

知识中心探索实体、人员和技术

相关文章

芯片架构的基本变化

内存设计如何优化系统性能

启动资金:2022年10月

启动资金:2022年11月

高级节点IC应力影响可靠性

重新思考机器学习的动力

热设计

芯片功率分布建模在7nm以下变得至关重要

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
探索实体、人员和技术