利用计算内存

如何处理在内存可以改变计算景观。

2019年10月24日—:布莱恩•贝利

系统变得更快,消耗更少的能量,他们必须停止浪费的权力需要移动数据和附近开始添加处理内存。这种方法已经被证明,产品进入市场,旨在填补许多角色。

处理内存附近,也称为计算内存,一直躲在暗处超过十年之久。自从引进闪存内存中,强大的处理能力来让它正常工作。穿平整和垃圾收集的只是几个正在执行的函数。

但更多的处理可能会做的内存。考虑一个系统是安全的。为什么不处理内存中的数据,数据加密,而不必unencrypt并通过总线传输数据,它可以拦截?为什么不上执行搜索大量的数据在内存中,只有将可能为更深入的处理?

最近的一次手臂白皮书指出,“固态存储设备(ssd)已经有了大量的DRAM,通常> 1 gb / TB结核病的NAND闪存。的总功率和成本的组件在一个SSD驱动器,处理使计算存储的要求部署没有显著增加权力或成本。一些设备可能依赖于已经可以在后台任务的处理或开车时加载,例如,一夜之间。更多的计算存储性能,可以添加额外的处理开车。”

Flash +计算
这样的一个例子是NGD系统提供的。“我们有NVMe-attached SSD,作为PCIe总线,”斯科特·沙利说,负责营销的副总裁NGD系统。“我们说,‘让我们做更多的存储空间,尤其是在设备越来越大。我希望能够操纵数据,向用户提供价值数据实际上代表了什么。我们提供了流程执行转移到存储设备的能力。”

图1:在一个NGD SSD。源代码NGD系统

认为你有一个干草堆的信息和你真正想要的是发现隐藏的针之间。“我们允许用户程序存储设备内的干草堆就提供主机处理器的针,“沙利补充道。“这是更有效,更低的延迟,和释放带宽。网络、连通性、buses-those限值器,不处理能力,而不是存储的大小。它是移动数据。我们允许用户通过长期存储的数据在某种程度上他们从来没有能够在过去。如果你有成千上万的照片存储在几个硬盘的数据,你可能知道大致这些照片在哪里,但你仍然要做一个算法搜索的数据拿回那些你真正想要的。”

这需要改变心态和编程模型,和一些公司正在一步一个脚印和扩展内存设备附加预定义的行为。

“记忆通常被认为是一个必要的商品购买技术,仅仅基于美元每GB成本,“Amr Elashmawi说柏树的内存产品部门的副总裁。“然而,在工业,医学技术和汽车,“哑巴”商品内存不再足够了。我不仅仅是存储数据。必须有一个硬件根的信任。例如,您不希望交易必须模仿。你不希望人们能够篡改记忆。你不想让他们做一个回滚到之前的版本,或者他们有一个版本插入到系统中。有许多不同的东西依赖于记忆本身。我们可以执行各种功能的记忆,如安全性、和功能安全,但潜在的诸如人工智能。”

图2:柏树永远也没有闪存架构。来源:柏树半导体

一些功能似乎是基本的,但人是至关重要的一个安全、可靠的系统。“我可以添加安全性和添加加密,安全引导处理器,将密钥存储在内存中,并保护他们,“Elashmawi补充道。“我可以在flash加密图像。我可以使用它作为一个存储设备,启动处理器,但是,当它处于工作模式可以使用的内存监控功能安全。我可以用它来做一个安全的引导。我可以做一些出售的人工智能处理的内存,因为它是更有效率的。作为一个用户,我可以决定我想做的事情,这取决于架构。”

DRAM +计算
处理内存并不局限于闪存附近。UPMEM正试图使这种技术更加普遍。说:“我们把处理器在达利克Gilles Hamou, UPMEM CEO。“数据密集型操作,发现在基因组学或数据库应用程序中,我们得到了加速度的20 x和能源效率提高10倍的范围。我们把成千上万的核心为一个服务器。我们有tb的数据带宽在一台服务器上,所以我们最终被更有效。”

图3:添加处理后发展出。来源:UPMEM

我们通常认为的动态随机存取记忆体过程是高度优化的存储单元和商品。“这是相当低的成本因为逻辑是一个小的插入在DRAM的大小增加,“Hamou补充道。“然而,这并不容易。可用的处理器不如一个ASIC,但补偿的减少数据移动。移动数据需要1000年代的微微焦耳和做手术的范围10年代的微微焦耳。所以,你可以不太好。我们也可以用细粒度访问内存。我们可以从8字节2 k字节的粒度,以及我们的1 gb / s带宽是有效的,当我们谈论的是不规则的访问。访问模式越不规则,我们的相对性能增加。”

新的内存类型与计算
有几个新的内存类型开发,但有一个专门为这种类型的应用程序,是理想的ReRAM。“这是一个CMOS后台线杜波依斯,说:“(BEOL)技术业务发展和战略营销的副总裁横梁。“这意味着我们可以整合ReRAM金属的路由层之间的元素互补金属氧化物半导体。你可以与任何CMOS集成这个,所以你去大铸造厂可以集成内存空间的控制器”。

图4:和ReRam集成逻辑。来源:横梁

独立意味着你能提供巨大的带宽之间的内存和计算。“我们已经展示了50 gb / s界面与逻辑推理,对象检测、人脸识别直接连接到内存,”杜波依斯补充道。“如果你与外部DRAM内存相比,你会发现更像是3 gb / s。没有阻止公司实例化这些宏的倍数,这样他们就可以得到他们需要的无论燃料与大量的数据计算。这是至关重要的人工智能和推理,你必须应对一些上下文或环境”。

但ReRAM可以采取进一步的领域比真正的内存处理。“我们正在调查一些更高级的口味的,你在哪里做的处理在一个模拟的方式,”吉迪恩Intrater说,首席技术官Adesto技术。“使用传统方法的矩阵是1000 x 1000,你必须连续,元素向量乘以矩阵的一列,然后把它们加起来。但是如果你有办法,在一个模拟的方式,你可以做所有的繁殖迅速和显著降低手术的复杂性。”

Intrater解释说这是如何工作的。“权重系统存储在ReRAM,而不是每一点的重量的存储在一个单独的细胞记忆,你整个存储在一个细胞中,电阻的线性函数要存储的值。然后,如果你电流通过电池,结果将是当前你驾驶的乘法倍resistance-Kirchhoff定律。从那里,如果你和一群这些水流,你得到的和乘法。这样做可以为您提供一个整体向量的列在一个单一的耳边耵聍,不能以数字的方式完成,除非你有大量的并行乘法器。这是一个最有趣的方法人工智能处理。这是内存处理。”

提高整体性能
收获的好处near-memory计算,必须作出一些改变在应用程序级别。

“在一个项目中,我们把我们的驱动器到我们的一个客户的测试平台和我们执行它,就像它是一个驱动插入插槽和执行程序时,“NGD的沙利说。“然后,我们打开我们的计算引擎,它将数据的时间减少了5到6 x。不幸的是,代码预期数据收集的一些延迟,所以处理时间实际上并没有改变。如果应用程序没有重写在某种程度上,你可能得到的好处,但你不会得到很多的净效益。然后他们修改他们的代码,有40 x净改进。这是硬件和软件的人说话。我们提供了一个硬件的解决方案,但软件不会看到它,直到他们使用它的价值。”

应用程序并行化,这样它的一部分可以移交给计算在内存中。“内存+处理器成为你计算引擎,但它没有做完整的计算,“Adesto的Intrater说。“这是加速并行的部分,但你仍然需要一个微处理器的东西不能并行运行。这非常类似于一个通用的CPU和加速器,许多繁重的,但处理器仍然需要做很多的预处理和后期处理工作负载。你可以卸载工作数量的加速器。所以有权衡,我们还有很长的路今天从知道灰尘就会沉淀下来。”

有投资和工作需要在软件层面。“一个关键的结论从最新的会议是任何硬件公司投资和招聘软件工程师,这样他们就可以利用新硬件,“横梁的杜布瓦说。“许多公司开始硬件公司生产的芯片,但现在是一个巨大的浪潮软件的新员工确保硬件将有效地用于应用程序。”

今天,每个产品使用一个不同的处理器和有不同的接口和api,使更少的即插即用的解决方案。“这有点野性的西方,就像当PCI ssd出来,“承认沙利。“随着时间的推移,市场创建NVMe,解决了这个问题。你会发现发生在持久内存,内存中处理和存储内处理。市场和提供这些解决方案的人意识到他们需要的西部,这样每个人都可以利用它。”

标准工作已经开始。“存储网络行业协会(SNIA)计算存储技术工作组已经成立了一个工作组,但没有一个标准组织,”本·怀特黑德说存储模拟部门的专家导师,西门子业务。“有一定程度的焦虑,标准不限制创造力还为时过早。我们可以看到行业的发展,我们必须理解为什么某些事情是如此重要。他们知道他们需要什么,他们非常要求我们提供他们需要的工具。”

手臂解释说,40多家公司代表和一起工作来定义相关的不同类型的计算存储方法。在大多数情况下,服务器系统必须能够将工作负载部署到驱动器,然后调用这些工作负载和接收结果。然而,专用的独立能力也有应用。方法来提供计算存储驱动服务和功能正在开发,确保驱动器是标准化的,和来自多个供应商的驱动可以采用和部署。

我们什么时候可以期待看到这些开始出现在产品吗?“基础设施不需要改变,”怀特海德说。“这是一个大问题。这不是一个巨大的提升到一个标准的SSD CSD。一场完美风暴的许多事情聚在一起。”

有关的故事
以不同的方式使用内存
优化复杂芯片需要决定系统整体架构,和记忆是一个关键变量。
新的内存选项
使用数据作为设计的出发点开辟了新的体系结构的选择。
内存与Near-Memory计算
新方法正在争夺注意力扩展福利减少。
在DRAM HBM2 vs GDDR6:权衡
的选择取决于应用程序不同,成本和容量和带宽的需求,但选项的数量是令人困惑。
在内存和Near-Memory计算
史蒂文哇,Rambus研究员、著名发明家谈到权力是花了多少存储和移动数据。

布莱恩•贝利

(所有的帖子)
布莱恩·贝利是半导体工程技术编辑/ EDA。

利用计算内存

布莱恩•贝利

留下一个回复取消回复

知识中心的博客

内存计算

Near-Memory计算

内存

电阻RAM (ReRAM / RRAM)

闪存

同步动态随机存取记忆体

DRAM:动态随机存取记忆体

技术论文

热门文章

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

知识中心
实体,人们和技术探索

相关文章

将浮点8解决AI /毫升开销?

真正的3 d更加困难,比2.5 d

RISC-V将成为主流

选择正确的高带宽内存

RISC-V芯片有多安全?

Mini-Consortia Chiplets周围形成

大的芯片技术和产业动态变化

创业融资:2022年11月

赞助商

最近的评论

关于

导航

与我们联系

利用计算内存

布莱恩•贝利

留下一个回复取消回复

知识中心的博客

内存计算

Near-Memory计算

内存

电阻RAM (ReRAM / RRAM)

闪存

同步动态随机存取记忆体

DRAM:动态随机存取记忆体

技术论文

热门文章

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

知识中心实体,人们和技术探索

相关文章

将浮点8解决AI /毫升开销?

真正的3 d更加困难,比2.5 d

RISC-V将成为主流

选择正确的高带宽内存

RISC-V芯片有多安全?

Mini-Consortia Chiplets周围形成

大的芯片技术和产业动态变化

创业融资:2022年11月

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索