中文 英语
18.luck新利
的意见

打破AI内存墙

记忆是无法跟上原始计算能力,创建一个瓶颈,每年增大。

受欢迎程度

在过去的几十年里,半导体行业发生了内存技术的快速发展,新的记忆帮助迎来新的使用模型,每10年。例如,同步内存帮助推动个人电脑(PC)革命在1990年代,和这是紧接着专业图形内存(gpu)游戏机在2000年代。当智能手机了本世纪初,低功耗内存电池的手机和平板电脑等移动设备被介绍给这些产品提供改进的能效和更好的性能。记忆将继续是一个关键的推动者,随着计算机的发展,我们预见到在2020年代人工智能将是一个关键驱动因素为超高带宽和估计云,边缘和端点应用程序。

AI内存三位一体:片上,HBM & GDDR
目前有三个主要的内存类型,人工智能系统和应用程序:片上内存、高带宽内存(HBM)和图形的DDR SDRAM (GDDR SDRAM)。片上内存提供了带宽和功率效率最高,虽然容量是有限的。典型的人工智能处理器使用片上内存可以达到每秒数万tb的内存带宽,和几百兆字节的能力。人工智能实现片上内存硅的例子包括微软的脑波和GraphCore IPU。,新宣布的大脑圆片规模引擎使用新的制造技术打破标线限制和多个reticle-sized处理引擎组合为一个大的圆片规模引擎。使用这种方法,大脑达到9 pb /秒的内存带宽,和18 gb的片上内存容量,帮助养活400000 AI-optimized内核。

需要更多的内存容量使用外部DRAM的解决方案。顾名思义,HBM提供非常高的带宽(通过使用许多并行数据电线运行速度相对较慢),高密度和高水平的功率效率利用相结合的新的体系结构组件。虽然这个新架构提高了性能和估计,HBM设计产生增加由于成本需要先进的插入器(所需的许多电线连接的处理器DRAM)和基质,以及实现复杂性(由于堆积在DRAM,以及堆垛SoC和达利克)和新的制造方法。系统上升暖气流和可靠性还需要考虑不同,管理有效,需要工程技术。因为有物理限制的HBM后发展出的数量可以连接到处理器由于需要短连接,重要的是行业整体关注改善HBM DRAM前进。

当前HBM-powered硅的例子包括AMD Radeon RX织女星56岁的NVIDIA Tesla V100富士通A64FX处理器和4 HBM2达利克(推动Post-K超级计算机的计算引擎)和NEC矢量引擎处理器6 HBM2达利克(为NEC SX-Aurora超级计算机的计算引擎翼·年代记平台)。

相比之下,GDDR AI系统设计者提供高带宽(高数据速率)和容易理解的类似使用的制造技术在传统DDR内存系统。GDDR记忆已经存在了二十年,使用传统chip-on-PCB制造和组装。挑战与GDDR相关系统设计包括管理信号完整性由于I / O数据率高,和更高的功耗。

下图比较这一代的好处HBM2 GDDR6达利克,当他们被用来构造一个256 gb / s内存系统。HBM2 GDDR6相比,拥有权力和区域优势与GDDR6消费三个半到四倍半的力量在SoC PHY HBM2相比,和一个半和PHY 3/4倍面积比HBM2 SoC。但GDDR6提供更好的制度成本,因为HBM2需要叠加和额外的组件不需要GDDR6内存系统。总的来说,GDDR之间提供了一个良好的折衷带宽、功率效率、成本和可靠性。当前GDDR-powered硅的例子包括NVIDIA GeForce RTX 2080 ti和AMD Radeon RX580。


来源:Rambus

内存墙上的另一块砖
从2012年到2019年,人工智能训练能力增加了惊人的300000 x,大约每3.5个月翻一倍。这个伟大的飞跃AI功能是25000 x摩尔定律的速度比在同一时期。然而,尽管令人印象深刻的增长在AI开发了片上内存,HBM GDDR,行业继续需求更多的性能。半导体行业的一个关键问题是如何继续提供这些类型的性能收益当两个最重要的工具,我们依靠几十年,摩尔定律和Dennard缩放,放缓或不再可用吗?这使得半导体行业一个AI内存墙,提醒我们processor-memory差距,多年来一直不断增长。

事实上,内存延迟和带宽限制系统性能,持续(流)内存带宽继续落后率峰值失败。简单地说,记忆是无法跟上原始计算能力。此外,网络延迟和带宽还继续以惊人的速度落后于处理器性能。这种不平衡已经创建了一个重要的瓶颈,每年持续增长更大。虽然开发了多种技术来缓解这种不平衡,业界已被迫转向新系统体系结构和特定领域的硅使现代人工智能系统为了让这些应用程序继续进化以稳定的节奏。强大的内存墙形成了进一步高度Dennard年底缩放、放缓摩尔定律发生和信号完整性问题,更快的数据率。

减少数据移动
人工智能系统的发展由高能源成本与芯片上的挑战和片外数据移动和内存访问。提高人工智能系统效率、片外数据移动应避开随时随地成为可能。数据必须被重用,摊销内存访问和数据移动能源。新一代的人工智能架构必须继续强调数据局部性最小化数据移动和保持在一个合理的信封。特定领域(专用)人工智能硬件已经设法增加功率效率100 x - 1000 x与通用处理器相比,和新架构创新需要进一步提高估计。

前瞻性的建议计算和数据想象计算引擎的集成芯片放置在靠近后发展出和存储,本质上更紧密地集成处理内存和在某些情况下直接进入硅DRAM和存储。这种模式的一个例子是说明N3XT纳米系统研究工作所示上图描绘的单片集成的3 d系统与计算沉浸在记忆中。从UPmem另一个例子是该公司最近发布的解决方案,集成处理器核心到DRAM。

结论
人工智能应用程序的快速进化显著变化的信息是如何消耗,和加工。提高内存带宽同时强调能量效率是至关重要的,进一步使广泛的行为的分析和训练神经网络的云,边缘和端点。正如我们在本文中所讨论的,人工智能系统设计师利用片上内存,HBM GDDR解决延迟、带宽、功率、成本/钻头和可靠性需求以满足各种各样的系统需求。新的体系结构和特定领域的硅将继续需要帮助AI系统设计者更有效地解决这些需求,和新创新需要继续人工智能处理的历史增长率。



留下一个回复


(注意:这个名字会显示公开)

Baidu