困难的记忆选择人工智能系统

权衡围绕着权力、性能、面积和带宽。

受欢迎程度

记忆的选择和架构是爆炸的数量,由人工智能和机器学习的快速进化芯片被用于各种不同的终端市场和系统。

这些系统模型的参数尺寸可从100亿年到1000亿年,他们很大程度上取决与你一个芯片或应用程序到下一个。神经网络培训和推论是今天最复杂的工作负载,使它更加难以想出一个最佳的内存解决方案。这些系统需要消耗大量的计算资源,主要使用multiply-accumulate数学,以及大量的内存带宽。和一个地区经济速度放缓,会影响整个系统。

”一连串的技术目前正在部署到减少神经网络模型复杂性和内存需求的神经网络模型,”Steve罗迪说,负责产品营销的副总裁手臂的机器学习小组。“例如,通过量化模型的大小可以最小化,网络简化,修剪,集群、和模型压缩。在设备运行时,智能调度重用跨层中间值也可以减少内存交通,从而加快推理运行时。”

这使得巨大的压力对记忆开发者提供尽可能多的带宽,最低的力量,区域,和成本。没有缓和的迹象和趋势。神经网络模型继续同比增长,这意味着数据集也增长,因为这些模型需要训练。

”的大小模型和训练集的规模每年增长约一个数量级,”史蒂文说哇,研究员、著名的发明家Rambus。“今年早些时候,当最新的自然语言处理模型,它有大约170亿个参数。这是巨大的。然后,在今年夏天,一个新版本出来了,是1750亿的参数。参数的数量在大约七个月上升了10倍。”

神经网络模型在1980年代和1990年代早期,大约有100到1000的参数。“如果我有一个更大的模型,我需要更多的例子来训练它,因为每一个这些参数的调整,”吴表示。”不耐烦的人,我们在技术,当你有更多的数据,你不想再等了训练。盒子里的唯一的出路是有更多的带宽。你必须能够更快地推动数据进入系统,更快地拉出来。带宽是一个问题。”

另一个问题是能源。“如果你要做的就是要两倍的性能,并可以双你消耗的力量,生活就太好了,”吴表示。“但这并不是它是如何工作的。你有一个信封你关心。你的墙上插座只能处理如此多的权力。原来人真的希望X的性能提高了一个因素,但他们想要更多的低功耗2 X倍,这就是它变得困难。”

这是在推论方面更加困难。“今天,有一个增长分为训练和人工智能的推理部分/毫升,”注意到马克•格林伯格组主管、产品营销、IP组节奏。“培训需要最内存带宽,通常是在强大的服务器类型的机器或高端GPU-type卡片。在培训领域,我们看到HBM记忆在高端和低端的GDDR6培训。提供最高的HBM记忆尤其善于在energy-per-bit最低带宽。HBM2/2E记忆提供高达3.2/3.6每秒AI /毫升处理器之间的内存带宽,每个堆栈的内存,和即将到来的HBM3标准更高带宽的承诺。”

成本的权衡
性能是有代价的。“作为一个高端解决方案有一个高端价格匹配,这意味着HBM可能会留在服务器机房和其他高端申请,”格林伯格说。“GDDR6技术有助于降低成本,与今天的设备提供每秒512 gbit / s 16 gbps数据速率,与更快的数据率。这也是常见的用户将多个并行的。例如一些显卡使用10个或更多GDDR6部分并行和/或更高的速度达到5真沸点带宽和超越。”

推断法仍然在发展,尤为明显的优势。”人工智能推理我们大多看到GDDR6 LPDDR5记忆新设计,”格林伯格说。“他们提供的可能性更为温和的带宽成本更温和,然后允许人工智能被部署在云的边缘和实时无需将所有数据发送回服务器。”

许多正在开发的人工智能机器现在很好计划,使用非常普通的布局和结构。

“如果你回想SoC设计的时代,你看到很多随机性发生芯片,因为芯片非常不同,”他说。“他们有很多不同的功能,有很多不同种类的功能。不同模块的芯片像搅拌锅。但是当你看一个人工智能芯片你会看到一个非常规则的结构,因为这是你将如何管理一个非常大量的数据并行数据流在芯片。这是一个不同于我们所做的在一个SoC架构,甚至许多cpu。这是围绕如何流数据通过芯片。”

所有这些直接影响记忆的选择,尤其是DRAM,将几年前失去势头。事实上,相反的发生了。今天比以往任何时候都有更多的选择,和他们每个人的价格差。

“例如,我们正处于一个过渡点标准DDR DDR4 DDR5,“Vadhiraj Sankaranarayanan领导说,DDR技术营销经理产品Synopsys对此。“来我们的顾客DDR4需求得到吸引,因为产品寿命将是足够长的时间,他们可能希望DDR5支持。与LPDDR5类似,这些新标准,给予更高的性能之外,在电源有一个优势。有功率降低,因为这些标准运行在一个较低的电压。还有一个好处在RAS(可靠性、可用性和可服务性)。的特性,因为更高的速度,达利克本身要配备功能允许纠正单比特错误可能发生在子系统”。

这些选项是必要的因为内存配置有很大的差别在今天的AI /毫升应用程序。“我们已经看到设计团队使用LPDDR除了HBM,但这实际上取决于带宽要求,“Sankaranarayanan领导说。“还有需要考虑的成本因素。HBM,因为有多个DRAM模堆满了通过技术——在矽,因为DRAM和SoC驻留在相同的SoC包使用插入器,这就需要多个包装步骤——今天每个HBM更高的成本。但随着HBM使用量的增加,因为人工智能应用程序,和更高的需求,这些价格应该在不久的将来变得更加合理。”

权力是主要
不足为奇的是,电源管理前考虑AI /毫升的应用程序。真正的数据中心和边缘设备。

在SoC,权力分配内存可以分为三个部分。

“首先是权力需要检索位DRAM的核心,也实在没有什么可以做的,“说Rambus吸引。“你必须把它们弄出来的核心和他们做些什么。第二,移动数据的能力,即。、权力与电路两端的线。第三,SoC PHY和DRAM的接口。原来的力量放在这些桶时,它在每一个水桶的大约三分之一。三分之二的力量花之间来回移动数据这两个芯片,这有点吓人,因为这意味着获取数据的DRAM核心——你必须做的事——不是的主导力量。为了变得更省电,你意识到的一件事是如果你想互相叠加上这些东西你可以摆脱很多这种力量,这就是发生在一个HBM装置。如果你想到堆积的SoC DRAM,通信本身的力量可能下降很多次,甚至一个数量级。这是你可能拯救力量。”

图1:HBM2记忆系统力量,基于PHY + DRAM力量2 gbps,流媒体工作负载,与权力分解100%读和100%写道。来源:Rambus

图1:HBM2记忆系统力量,基于PHY + DRAM力量2 gbps,流媒体工作负载,与权力分解100%读和100%写道。来源:Rambus

这里没有免费的午餐。“如果你这样做,你现在将更多的DRAM核心能力有限,你必须考虑如何减少DRAM核心能力使整个蛋糕很小,”吴表示。

这是一个正在进行的研究领域,但问题并没有明显的解决方案。这些碎片放在一个芯片,它们变得更小,因此没有尽可能多的电子。结果,很难感觉是否有一个或一个零,他们不一定保留这些电子,只要可能,所以他们需要经常刷新。

新材料和新细胞的设计可能会有所帮助。另一个选择可能是体育管理的权力,但是有一个循环依赖的一切一切,所以体育上的挑战是非常困难的。

“当你走得更快,有拔河比赛之间做更多事情,以确保数据的正确传输,”吴表示。“这是类似于拍卖人。当他们谈话时,他们大声地说话。在体育,它是相同的现象。为了持续拥有的符号,你必须有一个适当的振幅,因此面临的挑战之一就是如何正确的振幅和避免含混不清东西以确保人收到真的是你说的。很多工作进入显然丽人符号上来回。还有其他的技术尝试振幅下降,但他们都是权衡。总的来说,人们不希望改变他们的基础设施。所有条件都相同的情况下,如果他们可以选一些更多的增量在一些革命性的,他们会选择增量的事情。这就是挑战。”

On-die内存与off-die内存
另一个重要的权衡在AI /毫升SoC架构今天是内存的位置。虽然多次人工智能芯片on-die记忆,off-die记忆AI培训至关重要。

“问题是数据需要存储多少钱你想做的神经网络,“节奏的格林伯格说。”对于每一个神经元,有一定数量的存储需要。每个人都想使用片上内存。任何时候,您可以使用片上内存,你想使用它。它是超级快,超级低功率,但它是昂贵的。每一毫米的区域,你穿上你的主要死是一个毫米的区域不能使用逻辑和其他功能的芯片在一定预算。”

On-die记忆是非常昂贵的,因为它是生产在本质上是一个逻辑过程。“我生产过程的逻辑可能是7或5 nm的过程,”他说。“我这么做对这一过程有16层的金属,所以它是昂贵的把记忆放在逻辑芯片。如果你能做一个离散的芯片,然后记忆过程可以优化成本的目标。它有一个非常有限的金属层上,成本每平方毫米的记忆死去显著小于7的成本每平方毫米或5 nm逻辑死。”

大多数AI /毫升工程团队奋斗与这个决定,因为它仍然相对在生命周期的早期设计。“每个人都是从想把所有记忆的位置死,”格林伯格说。“没有一个真正的标准,你可以看看。在大多数人工智能芯片,真正不同的平面布置图。该行业尚未决定最好的人工智能架构,所以基本上我们仍在实验阶段人工智能芯片的体系结构,并朝着大多数人可能会解决。但今天它仍然是非常开放的。我们仍然看到很多创新。那么,你如何推荐内存类型?真的回来的一些关键参数,每个人都看着在内存中,这是你需要多少内存?有多少字节的数据需要存储吗? How fast do you want to get to it? How much PCB area do you have? How much do you want to pay? Everybody will solve that equation a little bit differently.”

这些决策影响AI /毫升芯片的方方面面,包括专门的加速器。大的选择取决于力量,性能和面积,锋利的云之间的界线和优势。

说:“这两件事很多样亚斯Mitra Tensilica组主管产品营销节奏。“有相似之处,但它们完全不同。如果你设计一个处理器的云数据中心,权力和区域有很多意义的感觉怎么做内存,内存层次结构,如何放下记忆。”

边计算,复杂度权衡继续增长,第四个变量添加到传统PPA方程——带宽。“讨论应该是PPAB,因为这四个轴我们经常要处理,”Mitra说。“在一个处理器设计或加速器设计AI /毫升,在弄清楚权力,性能,面积,带宽权衡,很多取决于工作负载的性质。当你谈论一些边缘,从根本上说,你需要非常高效的性能达到多少时放下在该地区。我得到多少性能相比我消耗的功率吗?我们总是想要谈论那些指标。”

他指出,这就是为什么人们花那么多时间在看内存接口。处理器/加速器设计师,这些考虑采取不同的形状。”的形状和形式基本上是人工智能工作负载。如何确保我做计算在一个非常有效的方式,因为我很少玩?你鸽子洞因为你不能牺牲太多的面积,瓦数太多,太多的计算。甜点在哪里为你做所有这些事情吗?你看不同的工作负载并试图找出计算应该是,帧每秒的速度应该是什么,什么帧每秒每瓦特,帧每秒每平方毫米是什么。”

结论
人工智能体系结构正处于快速发展的状态。何时以及是否稳定是任何人的猜测,这使它更难辨别如果选择是正确的,以及持续多长时间。

“你是在正确的道路吗?这个问题是正确的,但是有很多不同的答案,”Mitra说。“在传统处理器设计,如果我这样设计,那么这个看起来是这样的。众百姓就在处理器ip设计,还有一些变体,人如VLIW和超标量体系结构,等等。但它永远不会的情况设计会胜出。你会发现许多不同的设计会胜出。这就像是说你有100个选项给你,40选项最好,但是没有一个解决方案。这就是为什么,如果我们看看谷歌TPU,设计了一种特定的方式。你可以来一些其他加速器设计的另一种方式。展望未来,你会看到更多的人会因为这些架构选择不同垂直AI有许多不同的含义。”



留下一个回复


(注意:这个名字会显示公开)

Baidu