中文 英语

HBM问题在人工智能系统

加快内存揭示了新的挑战,尤其是当内存是包的一部分。

受欢迎程度

所有系统面临的局限性,和作为一个限制是,另一个是显示一直隐藏起来。很有可能这此起彼伏的游戏将采用的人工智能系统高带宽内存(HBM)。

大多数系统内存带宽是有限的。计算系统总体保持增加内存接口性能几乎与收益匹配的计算性能,这意味着内存转移率是大多数系统的瓶颈。这反过来又限制的计算量可以有效地执行。如果任何大量消除了瓶颈,然后计算可能的总量增加,电力问题上升到表面,生成的热量可能搬到前面的问题空间。

内存问题
计算和内存之间的关系是如此的根深蒂固,以至于作为一个行业,我们很少的问题。并缓存提高能力/性能方面的计划?我们期望的答案永远是肯定的,但这并不总是正确的。缓存的好处某些内存访问行为假设并非放诸四海而皆准。逻辑仿真就是一个例子,缓存可以减缓性能当缓存的内存表示小于设计。这肯定不是唯一的例子。

多年来,记忆发展结转的许多假设数据访问模式。例如,DDR标准继续增加访问的块大小与每个访问因为这是唯一的方法来增加总带宽。

接口的一部分,这是浓度是克服记忆本身的根本局限性。”动态随机存取记忆体仍然是一个模拟装置和时间参数,我们在DRAM的内部处理设备仍然非常类似于设备存在20年前,”马克·格林伯格说,集团产品营销主管节奏IP组。“我们所做的是改变物理层更快。”

如果记忆本身不能使它更快,你必须创建多个银行并行读取,然后尽快转移数据。这里假定数据本地化情况并非如此,这些内存传输变得越来越昂贵。这的原因之一是人们谈论处理附近的内存,因为它可以大幅减少需要传输的数据量。

但这一概念也适用于如果数据可以贴近处理和访问大小一致的问题。“挑战是,它必须具有商业意义对那些想尝试和采用它,”史蒂文说哇,研究员、著名的发明家Rambus。“它也有技术意义而言,能够重写应用程序或应用程序转换你有今天。它不一定是简单的将现有的应用程序并将其做一种新的架构,允许这种情况发生。原则上这是一件好事,但在许多情况下,它是最小的一块,而不是处理数据。面临的挑战是,你有一个基础设施,你已经处理并没有这样做。还有的问题是多么愿意业界支持这种模型吗?”

这些限制不存在当我们处理新应用领域,因为现有的解决方案更根深蒂固。这是人工智能的一个示例应用程序,计算/内存方程可以改变通过采用高带宽内存(HBM)。


图1:HBM集成在一个包中。来源:Rambus。

HBM问题
HBM底层内存技术提供任何根本性的改变。在其核心,HBM DRAM。因此遭受的所有在DDR DRAM访问限制和问题一样,有一些额外的底片。

  • :DRAM讨厌热量和热量导致其操作变得不那么可预测的。HBM解决方案,DRAM是逼近的主要热发电机——处理器。这个问题如此严重,以至于即使HBM的设计初衷是作为一个3 d堆叠技术,内存会被放置在顶部的处理器死,这个想法被搁置了,因为热引起的问题。因此2.5 d包装解决方案成为了前进道路。
  • 能力:HBM能力比DRAM通过DDR非常有限。虽然HBM获得能力,它永远无法赶上外部内存,因为外部内存能够利用每个进步在包,。
  • 成本:HBM需要一个插入器或桥,这是仍然相对较新技术。一个插入器需要什么基本上是PCB的制造硅。

能力
我们需要一点潜入HBM理解的一些局限性。“HBM的工作方式是,它是一个相当固定配置,”布雷特•默多克说,高级产品营销经理Synopsys对此。“这并不像一个标准的DDR接口,你可以有多个渠道DDR和多个队伍甚至可以构建自己的系统,任何你想要的。HBM是定义的多维数据集的方式,是刚性的。你得到一个立方体,它要么是4设备高,8设备高12与HBM3它将增加16设备设备高和高。在这个立方体你定义的通道——要么16个数据通道,128位宽,或32 64位宽的数据通道。他们称之为伪通道时下降64位宽度。所以你有一定数量的数据通道。”

另外,您不能添加任意数量的数据集。“容量有限的几件事情,”格林伯格说。“物理层经过硅插入器,仅限于几毫米的长度。你也许可以进一步延伸,如果你有。所有实现日期限制该接口的物理距离,以便限制HBM死亡的数量可以装在SoC。在一个极端的例子,是8,虽然我还没有见过一个应用程序有超过4栈的HBM。所以你不能得到相同的密度与HBM和DDR你可以。这将是多年前(或者没有)HBM能力可以对手DDR的能力。”

应用程序依赖于大量数据因此别无选择,只能坚持DRAM通过DDR接口访问。

带宽和功率
记忆常常占多数的权力转移被一个系统。然而,它并没有得到太多的关注,因为这种力量不是消耗在死亡本身。因此,它不需要完全相同级别的分析和问题的缓解。

看一些数字,GDDR5X将两倍正常GDDR5内存和未来预计将实现加速16 gbps和提供带宽72 gb / s。

其他内存标准是静止的。“我们有LPDDR5电平今年早些时候发布的,和DDR5将很快被释放,“Vadhiraj Sankaranarayanan领导说,在Synopsys对此技术营销经理。“这些记忆的速度比他们的前辈们向更高水平发展。LPDDR4和dx在移动端,最高时速是4267 mb / s, LPDDR5将6400 mb / s。DDR4,同样,为企业服务器市场的实际内存技术,运行到3200 mb / s,而DDR5将max 6400 mb / s的速度。所以LPDDR5和DDR5都将有一个马克斯6400 mb / s的速度,这是一个相当大的速度增加。”

HBM情况如何?“今天,最快的HBM系统运行在3200 Mb / s,这是HBM2e标准数据率,”布雷特•默多克说,高级产品营销经理Synopsys对此。“SK海力士已经公开宣布他们支持HBM2e在3600 mb / s。第二标准HBM3,由于2022年,将有6400 mb / s数据速率。有很多的跑道HBM快很多。它开始缓慢的数据速率,因为它是一个新的和未经验证的技术,因为它是更昂贵的,它仍然是一个利基技术比其他的。”

HBM的巨大优势
话虽如此,HBM比外部存储器有巨大的优势。访问时间和相关的权力做外部存储器的价值发现的一小部分。AMD估计GDDR5可以提供每瓦10.66 gb / s的带宽,但是HBM可以达到每瓦超过35 gb / s。

今天的HBM产品,4/8GB能力提供307 gb / s的带宽。这已经大大超过GDDR5x预期。HBM2支持307 gb /秒的数据带宽,相比与四DDR4 dimm 85.2 gb / s。HBM3,下一个版本4 gbps转移率与512 gb / s的带宽。

此外,内存配置是不同的。不同组织的访问可以用于进一步的获得。数据分级对于许多应用程序是很重要的。“GDDR HBM相比有更小的通道——32位128位,“说Synopsys对此Sankaranarayanan领导。“对矩阵乘法和其他应用程序,你有大量的流数据,比GDDR HBM会更有效,因为你可以以连续的方式获取数据。得到相同的带宽,比较GDDR HBM,你需要很多GDDR达利克,转化为系统级的复杂性。”

添加其他问题。“有趣的部分,这是系统设计师的挑战在于如何最好的使用渠道或伪渠道系统中,“还说Synopsys对此默多克。“他们必须找出如何处理它们之间的交叉记忆的效率最大化”。

新问题
如何创建一个新的问题?DRAM的静态功耗画核心仍将是基本相同的,将会增加容量。HBM更低功耗的每瓦,并支持更高的转移速率。总功率和能量会显著增加,如果记忆是满负荷使用。

然后我们看一下对计算的影响。“所有大多数设计的主要挑战是,他们可以把大量的计算,他们可以添加更多的计算,更多的并行性,但它实际上是一个计算和内存问题,”罗恩·洛曼说,在Synopsys对此战略营销经理。”战斗系统已经受到带宽和内存瓶颈。”

所以,限制消失时发生了什么?“HBM提供了空前数量的CPU和内存之间的带宽,“节奏的格林伯格说。“HBM2E提供2.4 tbit / s的带宽,进一步规范增强在地平线上。通过使用一个interposer-based技术,energy-per-bit保持低,但权力——energy-per-bit和每秒传输的比特数——可能在每秒传播率相对较高。”

这开始引起一些新的问题。”其中一个包括占HBM I / o的电源噪声的影响,“卡尔文Chow说,高级区域技术经理有限元分析软件。“虽然实力每针较低,有更多的I / o并行开火,导致当前消费显著增加。虽然信号痕迹是短,仍有噪音问题由于大量I / o的同时切换。”

转移率的增加意味着处理器可以保持更多的时间繁忙。“矩阵乘法的部分,但也有一些向量处理是必要的,”洛曼说Synopsys对此。“这是一个异构计算环境中,有不同类型的处理器,在这些芯片组是必需的。最小化数据降低了力量的传递。和建筑探索是有益的。”

今天大多数人工智能芯片依靠内置静态存储器,这些芯片被分划板大小有限,这意味着如果足够的带宽可以从外部获得内存,如提供的HBM SRAM可以减少和更多的处理可以包括在空间释放。

它将需要之间找到新的平衡点计算和内存带宽成为一个系统级的设计问题。将类似的许多问题,但尺度是不同的。“做必要的分析成为一个挑战,”斯里尼瓦桑说恋人,对ANSYS高级产品经理。“最大的挑战之一将仿真能力。当我们谈论GDDR,通道是32或64位宽,而在HBM你看着一个128位的频道为每个堆栈。你必须模拟信号连同所有的痕迹功率输出网络,这从一个死通过硅通过遍历到插入器跟踪到父逻辑死。仿真需要有一个优雅的工作流,以构建整个通道,然后你需要做必要的模拟能力,确保你没有信号完整性问题。”

HBM创造一个光明的未来。“HBM发展将继续进化路径随着技术的不断成熟,”温迪elsas说,杰出的工程师手臂的研究小组。“改善性能和容量,HBM将先进的ML和分析加速器的推动者,以及HPC等其他市场的竞争者。管理能力(最优功率中立)和热耗散将继续成为焦点,以及定义一个健壮的RAS(可靠性、可用性、可服务性)解决方案high-data-integrity”用例。

结论
HBM比任何以前的记忆系统,提供更多的带宽和功率/位水平,可以一个数量级比外部DDR内存系统。系统将如何使用这个新功能仍然未知。

它还将使计算总吞吐量大幅增加,但这将会以牺牲内存子系统和总功率的计算。美联储保持这些系统有足够的力量,够酷,确保一个安全的操作环境的DRAM内存,可能会成为一个挑战。

有关的故事
HBM知识中心
专题报告、视频、头条新闻,HBM白皮书等等
HBM2E: E代表进化
新版本的高带宽内存标准承诺更大的速度和饲料,仅此而已。
接下来的高带宽内存
不同的方法分解内存墙。



留下一个回复


(注意:这个名字会显示公开)

Baidu