中文 英语

高性能内存挑战

容量、速度、功率和成本成为AI/ML应用中内存的关键因素。

受欢迎程度

在7/5nm工艺下,为高性能应用设计内存变得更加复杂。有更多的因素需要考虑,更多的瓶颈需要解决,更多的权衡需要解决。

最大的挑战之一是人工智能、机器学习或深度学习,甚至在经典的数据中心服务器机架中需要处理的大量数据。

“设计变大了,但寄生也变大了,”腾讯高级首席产品经理Joy Han说节奏.“精确表征内存所需的PVT(过程、电压和温度)角的数量已经显著增加。”

所有这些问题都说明了系统架构师如何从技术(无论是7nm还是5nm)中挤出更多的计算能力,并将其转化为真正的计算能力。

“当今的架构中存在瓶颈,主要是如何在内存和计算之间获取所有数据,”at的营销副总裁Magdy Abadir说Helic.“要解决这个问题,有很多方法。其中一些将内存尽可能地靠近CPU,这意味着数据总线必须非常快,这解决了一点问题,因为它不会一直离开芯片。然而,你不能把你需要的所有内存都放在CPU旁边的芯片里,所以你仍然必须有一个下一层的内存结构,它尽可能靠近芯片。这些东西的容量变得非常高,并使用了一些深奥的技术,比如堆叠内存tsv”。

在许多高性能应用中,从系统设计的角度来看,挑战在于如何在合理的功率配置下获得更多的带宽以适应芯片上的合理区域。例如,高带宽内存(HBM 2)从功率和面积的角度来看非常高效,因为它使用了3D堆叠技术,该公司产品管理高级总监Frank Ferro解释道Rambus

但这里的权衡是成本。hbm2更加昂贵,到目前为止,这种技术的主要应用与某种形式的高级包装有关2.5 d或高档扇出-开发时考虑的是高性能,而不是成本。替代方案是ddr和/或gddr的某种组合,它们可以组合起来实现比传统的更好的性能动态随机存取记忆体解决方案,但他们需要更大的面积和更多的芯片。


图1:三星的HBM2。来源:三星

“我是使用5个或10个ddr,还是gddr,还是1个HBM堆栈?”铁说。“系统权衡、功率权衡和性能权衡是什么?这很有趣,因为SerDes已经驱动到56或112 GB,所以系统中有所有这些非常高速的链接,现在你可以非常快速地移动数据,但现在你也必须开始非常快速地存储和处理数据。因此,我们继续在网络市场和企业市场看到(工程团队询问)如何获得更多的内存带宽,以应对所有这些数据的移动。”

Helic的Abadir表示同意。他说:“为了获得容量和速度,你必须走这些极端,你试图在小范围内尽可能多地集成,以达到速度、访问率,并能够非常快速地传递大量数据。”他指出,机器学习/人工智能应用程序的问题变得更加棘手,因为它们是如此的数据密集型。“你在大量数据上做了很多事情。这是这类解决方案的共同主题。从技术上讲,你可以看到在给定SoC中可以容纳多少内存方面没有放缓的趋势,但要使这些东西正常工作,在设计上存在挑战。有了这项新技术,它为新的机会打开了大门,你不会改变你的基本设计关注点和老一代使用的设计流程,特别是像电感这样基本的东西。我们知道,随着频率越来越高,数据速率越来越高,就会有干扰,这是大家都知道的。你改变了你的设计流程吗?(来自用户的)答案是,‘不太好。’”

权衡
虽然HBM 2和GDDR目前正在争夺相同的应用程序空间,但HBM 2还有很大的发展空间。JEDEC计划至少两代HBM, HBM 3+至少多一步。

“你可能会问,现在哪种内存性能更好,而且更便宜,”at的内存接口产品营销经理Graham Allan说Synopsys对此.“现在德国dr可能更便宜。但是您可以从一个HBM堆栈获得与大约五个GDDR内存相同的性能。如果你看看这些高端gpu,它们通常在PCB上有12或14个32位GDDR内存,形成一个巨大的马蹄形。因此,它们在电路板上占用了大量的物理面积,而HBM不占用大量的面积,从功率的角度来看,效率更高。这是所有gpu关心的关键指标。”

空间成为一个关键的权衡,这必须与成本和终端设备的形式因素相平衡。Cadence的Han说:“内存占据了骰子上的大部分空间,所以如果你解决了内存问题,你就已经解决了设计的主要部分。”“我们看到客户使用静态RAM (静态存储器),作为一个例子,他们可能会去内存编译器获得SRAM。我们还看到它们可能在内存编译器上进行自定义。但我们也看到了一些非常激进的案例,他们设计了自己的内存。所以它不是来自于编译器。他们从零开始设计。我们已经看到他们最终获得的内存类型有多种变化,可能直接来自IP提供商,也可能是IP提供商加上一些定制工作的组合,也可能是完全定制的,这样它将成为他们设计的一个区别。”

定制可以发生在许多方面。她说:“例如,一些用户希望看到的自定义是,在提供内存编译器的同时,他们可能希望添加额外的组件。”“或者他们可能会看一下已经被描述过的PVT角落,然后他们回来说他们想要更多的覆盖。他们想知道内存在他们感兴趣的领域会如何表现,这可能与IP提供者提供的内存编译器无关。”

韩寒说,这种定制还需要低功耗。“(工程团队)希望确保产品使用时间长,电池寿命长,因此供电电压不能太高。”

是什么改变了
多年来,高性能内存一直与经典的数据中心服务器模型绑定在一起。事实上,数据中心应用程序代表了传统的内存应用程序。

Synopsys的Allan说:“如果我们回顾DDR的历史,内存通常首先用于台式机/客户端,甚至在笔记本电脑成为主流之前。”“大约从DDR4一代开始,定义这些dram新标准所涉及的所有工作都集中在服务器环境上。一旦完成了这些工作,产品就被引入市场,并开始向该应用程序销售,它们就会下降到其他应用程序,即用于DDR的笔记本电脑和台式机。这就是为什么你会看到服务器使用更先进的DDR内存,而不是在戴尔笔记本电脑上购买。”

服务器面临的主要挑战是容量。“服务器需要大量的DRAM,”Allan说。“你试着把尽可能多的DRAM位塞到一个内存模块上,然后你想试着创造一个环境,让你可以在盒子里装尽可能多的内存模块。你试图在那个盒子里装这么多gb的DRAM,同时还试图不炸断电源的所有保险丝,并且在成本方面不打破银行。传统上,你会在DIMM上放置一堆组件,然后将DIMM插入插座,通道上有多个插座。随着时间的推移,速度不断提高,每走一步,你就会撞上一堵砖墙。所以问题是,当我们试图展开与这么多组件对话时,事情就发生了故障。我们把车装得太重了。公共汽车开不快。”

这就是最初创建寄存器内存和减载内存的原因。之后,在主机和大量的dram之间插入缓冲区和寄存器,这在一定程度上是可行的。最近,DRAM供应商已经开始在HBM封装中堆叠内存芯片,使用与tsv连接的4或8芯片模块。

“这是未来的发展趋势,”艾伦说。“这些组件仍然相当昂贵,因为将该技术提升到大批量生产还存在挑战,但3D堆叠DRAM有可能使减载内存成为历史。”

其他因素
在其他市场,特别是汽车和人工智能领域,主要的内存类型是GDDR的一些变体。

艾伦说:“如果你看一下英伟达过去几年的股票走势图,就会发现它的涨幅如此之高是有原因的。”“针对这些特定应用的高性能计算已经开始几乎完全利用以前的图形处理器所提供的高度并行处理。这个问题恰好与图形处理器解决的问题相同,而随之而来的是连接到图形处理器的DRAM。它为基于AMD和英伟达等公司的高端图形处理器的游戏领域打开了一个全新的市场。”

这些传统上开始与DDR3和某种程度上的DDR4对话。然后专门的图形存储器出现了非常高端的市场,即GDDR,现在达到了GDDR6。

艾伦说:“这些是高度专门化的记忆,速度快得令人难以置信。”“例如,GDDR6大约比最快的DDR4快5到6倍。这是因为它们都是点对点的,所以没有多重加载,没有其他组件挡道。这是一个非常简单的原理图,但是一个非常严格控制的实现。信号完整性环境就像帐篷里的长杆一样会限制性能,所以封装必须非常仔细地设计,PCB也必须非常仔细地设计。成本被添加到这个方程中,因为PCB上必须有更多的层,封装中必须有更多的层,SoC上必须有更多的模上解耦才能使这些接口工作。这是一个宽并行接口,没有嵌入式时钟,运行速度为每秒18千兆比特。它可能会以这样的数据速率到达终点。知道这一点很久以前就已经出现了HBM选项。没有什么比HBM更节能的了,因为它的连接非常短,而且它不是一个终端接口。 It’s presently at 2.4 gigabits/second per pin. It just uses a heck of a lot of pins. A 32-bit GDDR memory does the opposite. It doesn’t use a lot of pins. It just cranks the clock up really fast.”

马诺吉·罗格,公司战略规划副总裁Achronix半导体我同意内存经常成为一个大瓶颈,不仅从带宽的角度来看,而且它是大量能量被浪费的地方。“架构师必须认真关注数据传输,真正重要的是理解数据流并优化数据传输。”

他指出,可以肯定的是,人工智能工作负载增长最快,谷歌和微软正在做的是运行大量内部工作负载,并使用人工智能进行邮件过滤和照片分类。“从这个角度来看,数据中心内存的最高要求,超级规模者真正关心的是运营成本,而不仅仅是资本支出,因为电源是一个很大的组成部分,你会听到不同的系统工程师谈论内存传输成为电源的一个很大的组成部分。每个人都在寻找优化内存传输的最佳方法。”

Roge提醒说,内存传输是一个问题,因为在计算和内存之间传输数据时浪费了大量的能量。斯坦福大学发表了一篇论文,详细描述了这一点,量化了如果计算中浪费的能量是1倍,那么从计算到内存的数据传输的能量将在1到10倍的范围内-对于一级缓存或紧密耦合内存之类的东西。“当你进入第2级缓存或位于骰子角落的大内存块时,可能会增加10到20倍。然后你再使用DDR之类的外部存储器,与计算中浪费的能量相比,这将是100倍的能量。”

因此,在硬件/软件协同设计的背景下,为了最有效的系统设计,工程团队需要仔细研究数据流,并根据数据流优化内存层次结构。“这是因为你想要最大限度地减少数据传输中浪费的电力或能源。这意味着您需要非常仔细地考虑内存层次结构。你在芯片上放了多少钱?对于像英伟达的gpu或英特尔的cpu这样的产品来说,这是一个逻辑过程,所以它有很多层金属,所以你不想在芯片上放很多内存,因为那样会比芯片外内存更贵。如果你把内存放在die上,你不会得到最便宜的内存,但如果你把内存放在die上,你会得到最高的效率。然后,你去外部,无论是DDR类的内存还是GDDR类的内存,以获得高带宽。然后必须查看内存层:您是否解决了内存带宽问题?有两种选择:HBM和GDDR。你在解决容量问题吗? For this, you need to consider DDR-4 or the emerging DDR-5, and so on.”

所有这些都回到了关于权衡的讨论,这些权衡可以包括从成本到性能到上市时间等各种因素。

“你不想做的是重新旋转硅,”Cadence的Han说。“你真的想在第一次尝试时就获得成功。你要寻找一种方法,在你使用硅之前,在设计和验证过程中获得与硅的真正良好的精度相关性。我们看到摩尔定律的到来,我们看到设计的类型变得如此庞大,但上市时间也非常紧迫,所以你真的想提高生产力。用户进行了大量的模拟,他们要求更好的性能和准确性,因为他们希望在一天内完成模拟运行,而不是在五天内完成。”

有关的故事
如何选择正确的记忆
不同的类型和方法会对成本、功率、带宽和延迟产生很大的影响。
新的记忆竞争者?
fefet是一种很有前途的下一代记忆材料。
记忆的未来
专家们,第3部分:安全性,进程变化,高级节点上其他IP的短缺,以及过多的代工进程。
中国会在记忆领域取得成功吗?
该国正指望DRAM和NAND技术来减少贸易逆差。
人工智能如何影响记忆系统
不同的架构绕过内存瓶颈的方法
内存市场:历史会重演吗?
中国不可能支持三家DRAM公司,但其中一家很可能会成功。



1评论

加里·黄 说:

缩短D-2-D互连的路径和降低D-2-D互连的电阻是权衡的协同。

留下回复


(注:此名称将公开显示)

Baidu