18.luck新利
的意见

生成人工智能与HBM3记忆训练

满足内存带宽和容量需求的大型语言模型。

受欢迎程度

最大的一个,谈论最多的应用程序驱动的硬件要求今天是大型语言模型的崛起(llm)和生成人工智能成为可能。最著名的例子生成AI现在,当然,ChatGPT。ChatGPT GPT-3利用1750亿年大语言模型参数。第四代GPT-4据说将提高参数的数量超过了1.5万亿。LLM训练需要大量的计算能力加上高带宽内存。这个博客将着眼于高带宽内存(HBM),以及它是如何适合培训要求LLM工作负载。

HBM基于高性能三维叠加内部架构。HBM3,最新版本的标准诞生于2022年,提供的功能来实现巨大的内存带宽。四HBM3栈通过一个接口连接到一个处理器运行在6.4 Gb / s可以提供3.2 TB / s的带宽。和3 d堆叠的内存,高带宽和高容量可以达到在一个非常小的足迹。更重要的是,通过保持数据速率相对较低,内存接近处理器,系统整体力量保持低。

所有版本的HBM运行在一个“相对较低”数据速率但达到非常高的带宽使用极其广泛的接口。更具体地说,每个HBM3堆栈运行高达6.4 Gb / s通过一个接口连接到相关的处理器1024数据”的电线。“命令和地址,电线的数量增长到1700。这是远远超过可以支持标准的PCB。因此,硅插入器连接的中间层使用内存堆栈(s)和处理器。像一个SoC,精细的数据可以在硅蚀刻痕迹插入器来实现所需的电线HBM所需的接口。

设计权衡HBM增加复杂性和成本。插入器是一个额外的元素,必须设计和制造特点。3 d堆叠记忆出货量苍白相比的巨大体积和制造经验积累使传统DDR-type记忆(包括GDDR)。网络是实现和制造成本更高HBM3比传统的2 d像GDDR6内存架构。

然而,对于人工智能培训应用,所带来的好处HBM3优越的选择。带宽性能突出,可以交易和更高的实现和生产成本与节约空间和能量。数据中心环境中,物理空间逐渐受到限制,HBM3紧凑的建筑提供了实实在在的利益。功率转换降低热负荷较低的环境中冷却通常是最高的运营成本。

HBM3提供系统设计师非常高带宽能力和最佳的功率效率。虽然HBM3系统的实现可以挑战更复杂的设计和制造成本,节省板空间和冷却可以引人注目。对人工智能训练,HBM3是一个理想的解决方案。它建立在一个强大的成功履历HBM2 HBM2E,在人工智能实现加速器如A100 NVIDIA Tesla和一代又一代的谷歌张量处理单元(TPU)。HBM3内存使用NVIDIA的新斗H100 AI加速器。

培训、带宽和容量需求至关重要。这是尤其如此,因为人工智能的训练集每年增长了10倍。现在培训工作负载运行在大规模并行体系结构。考虑到创造的价值通过培训,有一个强大的上市时间尽快完成培训运行的动力。此外,培训应用程序运行在数据中心越来越制约权力和空间,所以有优质的解决方案,提供功率效率和更小的尺寸。鉴于所有这些需求,HBM3 AI是理想的内存解决方案培训硬件。它提供了良好的带宽和容量的能力。

Rambus HBM3内存接口子系统AI提供最高性能和灵活性训练在一个紧凑的形式以及功耗小信封。接口包含一个co-verified PHY和数字控制器组成一个完整的HBM3内存子系统。Rambus HBM3内存子系统提供了市场领先8.4 Gb / s /数据销(远高于标准6.4 Gb / s)的速度。16个独立通道的接口功能,每个都包含64位,总宽度为1024位的数据。在最大数据速率,这提供了一个总接口的带宽1075.2 GB / s,或者换句话说,每秒1 TB(结核/ s) HBM3记忆装置。

资源:



留下一个回复


(注意:这个名字会显示公开)

Baidu