在内存中处理

不断增长的数据量和有限的改善方法的性能创造新的机会,从来没有离开地面。

受欢迎程度

添加处理直接进入内存越来越严重,特别是对于应用的数据量很大,移动它各种记忆和处理器之间来回需要太多的精力和时间。

处理器插入内存的概念已经出现间歇性地在过去的十年里作为一个可能的未来发展方向,但这是被认为是一个昂贵的和未经考验的替代设备扩展。现在,随着比例减少的好处由于热影响,各种类型的噪声,和飞涨的设计和制造成本,所有选择都摆在桌面上。尤其是在汽车应用,如计算机视觉,激光雷达和摄像头传感器将生成流媒体视频,和人工智能/机器学习/深度学习,大量的数据需要处理。

“如果你能处理数据驻留,更有效,”丹布维耶说,AMD首席架构师的客户端产品。“如果你有穿过链接,这是非常昂贵的权力I / Os尤其昂贵。他们没有扩展。物理不伸缩。和包装技术太贵此时去更好的撞球。你想要尽可能多的压实附近。如果你使用异构处理器,它更容易管理本地力量。”

这是适用于数据中心的自动车辆和其他边缘设备,远离一个惊人的新启示。AI / ML / DL和流媒体视频并不是新技术。跨多个市场,但是当他们开始坡道独特的挑战出现涉及权力和延迟。简而言之,需要处理的数据量将超过扩展的性能和能源效率,解决的唯一途径,是通过结构改进和硬件软件合作设计。

“平衡内存带宽和计算带宽以来计算机系统体系结构中的核心问题电脑的开始,”Chris再生草说Babblelabs的首席执行官。“即使50年前,人们说,‘以一种通用的方式我想每个操作都需要在一个字节的顺序。”

这个方程并没有改变明显。是什么改变了更有效的方法来做。其中包括:

•将多个操作组合到一个周期;
•改变频率的处理器和内存之间的数据移动,通过缓存或减少了计算的准确性,和
•缩短处理器和内存之间的距离,同时保证有足够的带宽。

所有这三个领域的工作正在进行中,有成功的希望。但减少处理器和内存之间的距离在许多方面提供了一些有趣的挑战。

“这当然是可行的从技术的角度来看,减少距离,”克雷格Hampel说,首席科学家Rambus。”,它需要权重进行神经网络训练,因为你不能有一个延迟。问题是经济学。如果你看看DRAM,部分组装的方式非常常规的成本效益。的目标3 d是让那些距离短,和2.5 d有助于。但这两种方法使热问题更难以解决,他们很难测试。”

混合内存数据集,由微米和三星提供的一个例子努力距离和提高数据吞吐量叠加内存逻辑在3 d配置和连接不同的层在矽通过(tsv)。

“人们非常感兴趣直接访问内存,“阿明Shokrollahi说的首席执行官Kandou总线。“问题是,你必须能够建立它,这样你就可以做正常的编程。软件硬件一样重要。”

这是一个经济学变得特别棘手的地方。“原因之一混合内存数据集不脱是没有第二个来源,“Shokrollahi说。“HBM(高带宽内存)是更多的梗概,但它提供访问所有记忆和多源。HBM包装也可以支持更多的层,你可以很容易降温。如果你包一个处理器内部内存,它变得很热。”

一个可能的解决办法是限制大小的处理器和记忆。神话,一个奥斯汀,德克萨斯州启动时,引入了一个新的矩阵乘以内存架构在上个月的热芯片30会议旨在AI /机器学习市场。神话的方法是提高性能通过闪存内的模拟计算。

“我们将代表权重矩阵使用flash晶体管在一个flash数组,”戴夫菲克说,神话的首席技术官。“我们把这个flash数组,我们包成砖。我们有一个基于题目的体系结构,其中每个瓷砖都有其中一个内存数组,然后它也有其他支持重构和中间数据存储逻辑。SRAM提供中间数据存储,所以我们将数据存储在存储器之间的中间阶段。我们有一个RISC-V处理器提供砖内的控制。我们有一个路由器,与相邻的瓷砖,然后SIMD(单指令多数据)单位提供的操作没有矩阵相乘。”

这里的限制是专业化,因为flash晶体管无法迅速被编程。“你需要一套固定的您正在运行的应用程序,但这是相当典型的边缘系统,”菲克说。“我们可以支持多个应用程序的不同区域映射到不同的应用程序,所以我们可以支持一些。”


图1:神话的体系结构应用于深层神经网络。来源:神话/热芯片30

制造业的挑战
还有其他问题需要解决,。减少之间的距离信号需要旅行记忆和逻辑创建热和成本的挑战。但建筑处理直接进入内存加入了集成和兼容性问题。

“最大的问题是记忆过程和逻辑过程不适合在一起,所以你不能做一个合理的工作制造这些设备在一起,“Raik Brinkmann说,总裁兼首席执行官OneSpin解决方案。”热刺另一波创新在制造业方面。例如,使用单一的3 d建筑有很薄的逻辑层之间的连接和记忆层连接两块硅。这基本上就是内存计算。”

在这一点上没有人确切知道这种方法如何在制造业产量。

”,添加了一个全新的挑战,”罗伯•艾特肯表示手臂的家伙。“一个有趣的建筑创新的处理是斯坦福大学所做的基于像素处理系统。在这样的一个系统,像素彼此相对独立,存在于一个二维曲面。所有收益问题你会得到粘合两个晶片不影响你几乎是一样的,如果你有一个案例,“这晶片被75%的收益率,晶片被75%的收益率,而当我把它们放在一起他们得到30%的收益率。你必须建立系统的冗余隐含在3 d堆叠与你,不是对你。但即使你不去单片3 d,和你想做计算在内存中,内存或接近,进入数据移动问题。如果您的系统需要将数据从这里到那里,不管多么聪明你的处理器或多快是因为这不是限制因素。”

设计的挑战
打开了一系列其他从设计方面的挑战。

“这不仅仅是你如何把更多的东西进设计,”Mike Gianfagna说,负责营销的副总裁eSilicon。”的一部分,它也是你如何改变传统的芯片设计方法。near-memory队列需要复杂的并行设计。”

它还需要深入了解如何利用各种类型的内存的一个设计。:“一个最大的对手是虚拟内存子系统AMD的布维耶说“你movng通过数据以一种不自然的方式。你有翻译的翻译。”

但布维耶指出有不同的指标对不同类型的芯片使用DRAM。分离式GPU,他说DRAM运行效率在90%范围内。APU或CPU,它运行在80%到85%范围内。

对人工智能/ ML / DL应用程序来说,这是特别重要的推论。

“英伟达的原因是如此强大不是仅仅因为他们有一个平行的建筑就是大量的记忆,“说Babblelabs再生草。“的一件事是截然不同的推理过程是你经常有成百上千的每个字节的内存操作。所以这个问题的不同,至少在推理,你经常不关心内存。你可以把很多计算密切相关的问题没有内存瓶颈是一个问题。导致如此之多的创新是人推出非常密集的计算架构和粗粒度的数组,反应是:“这很好,但是没有问题,这些特征。“大部分都失败了,因为他们没有足够的内存带宽。但是现在我们有一个问题,确实有特点,带宽不是一个问题。”

这使得添加内存中或非常接近记忆更有吸引力。虽然还不肯定,它不再是被解雇,没有一些严肃的讨论。

苏珊兰博对此报道亦有贡献。

有关的故事
下一代内存加大
在运行至少5技术,3 d XPoint领先。
人工智能体系结构必须改变
使用人工智能应用程序的冯诺依曼体系结构是效率低下。什么将取代它呢?
推动DRAM的限制
过去的水管问题继续困扰处理器和内存芯片制造商的差距增大的速度。



1评论

马克•格罗斯曼 说:

输入错误?或突破的想法吗?“这使得添加内存中或非常接近记忆更有吸引力。”

留下一个回复


(注意:这个名字会显示公开)

Baidu