中文 英语

内存与Near-Memory计算

新方法正在争夺注意力扩展福利减少。

受欢迎程度

新memory-centric芯片技术是新兴的,承诺解决带宽瓶颈问题在今天的系统。

这些技术背后的想法是将内存接近加快系统的处理任务。这个概念并不新鲜,以前版本的技术不够。此外,目前尚不清楚,如果新方法将不辜负他们的比林斯。

Memory-centric与不同的定义是一个广泛的术语,尽管最新的热点围绕两个technologies-in-memory计算和near-memory计算。Near-memory包含记忆和逻辑在一个先进的IC方案,而附近的内存将处理任务或在内存中。这两种技术是有效的,可用于不同的应用程序。

——和near-memory旨在提高数据处理函数在今天的系统,或驾驶新架构如神经网络。这两种方法,一个处理器的处理功能,而内存和存储存储数据。

在系统中,内存和处理器之间的数据移动。但有时这种交换导致延迟和功耗,有时被称为记忆的墙。

业界正致力于解决方案。“每个人都在追求一个芯片100 TeraOPS性能,”Steve Pawlowski说先进的计算解决方案的副总裁微米技术。“但是,芯片的效率,你必须同时有几个事情。这意味着必须将数据放入芯片和芯片尽可能快的把它弄出来。”

这就是——或者near-memory计算,让记忆更加或将它集成到系统处理任务来提高。技术都是对其他原因可能给该行业的吸引力除了传统的芯片扩展另一个选择。

在扩展,这个想法是为了使设备更小的在每个节点与更多的功能。但芯片扩展变得更困难,更昂贵的在每个转,尤其是对设备和逻辑动态随机存取记忆体

不过,在某些情况下,这些memory-centric架构与芯片执行不同的任务,不要总是需要高级节点。和near-memory计算不会取代芯片扩展,但它们确实提供其他的选择。

什么是内存计算?
在今天的系统,传统的内存/存储层次结构很简单。为此,静态存储器是集成在处理器缓存,可以快速访问经常使用的程序。用于主内存,DRAM是分离和位于双列直插式内存模块(DIMM)。和磁盘驱动器和NAND-based固态硬盘(ssd)用于存储。


图1:内存/存储层次结构。来源:林的研究

基于此层次结构、系统面临数据在网络上的爆炸。例如,IP流量预计将达到每月396 EB (EB)到2022年,从2017年的每月122 EB,根据思科。

数据增长加速。“如果你看一些司机,你的移动应用程序。需要你进入更多的数据5克网络。你有更多的视频和屏幕分辨率更高,”副总裁Scott Gatzemeier说研发运营微米,在一个小组在最近IEDM会议。“然后,如果你看一些人工智能应用程序的手机与面部识别和认证,这是开车不仅更大的内存,还需要更快的记忆。”

数据爆炸对系统产生影响。”随着数据量的增加在我们的世界从成千上百tb tb的服务器内,我们也将面对一个问题从ssd来回移动数据到cpu。这将是一个能源问题,我们会遇到一些系统瓶颈,”副总裁Manish Muthal说的数据中心在Xilinx单位,在面板。

在面板上,荣格胡恩李,SK DRAM设备和流程集成主管海力士,总结了问题:“数据相比增长速度计算的性能。需要一些中间层来解决这个问题。”

解决这个问题的一个方法是集成处理器,内存和其他设备在传统冯诺依曼体系结构。扩展这些设备将提供更多的性能,但这增加了成本和复杂性的方程。

另一个办法是对这些新奇的——和near-memory架构。“我们看到趋势集成新的内存技术,”杨说,公司的先进技术开发的副总裁林的研究。“near-memory计算和内存计算的趋势将推动新架构集成逻辑(数字和模拟)和新的记忆。”

内存中计算究竟是什么?今天,没有单一的定义或方法。

“你会得到不同的答案关于内存计算取决于你问谁,”吉尔说李,董事总经理内存技术应用材料。“有产品出来那个方向。现在发生了内存计算是使用现有的内存技术。产品专为这些应用程序正在建设中。这能推动更多的分割在内存的应用程序。”

“内存计算”这个词并不新鲜,可以以不同的方式使用。其中有:

  • 数据库世界使用内存缓存和其他应用程序计算。
  • 芯片制造商正在开发芯片技术在内存中处理处理任务的神经网络和其他应用程序。
  • 有一些新奇的方法,即神经形态计算。

多年来,甲骨文,SAP和其他人使用内存数据库中计算的世界。电脑中的数据库存储和访问。在传统的数据库中,数据存储在磁盘驱动器。但访问驱动器的数据可能是一个缓慢的过程。所以数据库厂商开发了主存中的数据处理方法在服务器或子系统中,磁盘驱动器。反过来,这提高了交易的速度。

这是一个简单的方法解释一个复杂的话题。尽管如此,在数据库的世界里,这叫做内存计算或内存数据库。

在数据库中,内存的使用计算是基于经典的方法。“他们仍然使用相同的冯·诺依曼能力和编程模型,“微米Pawlowski说。“这是试图找到最好的方式在同一个地点协同工作过程的数据使其更快。”

在世界半导体/系统,内存计算具有相同的基本原则有不同的twist-you拉近内存或内部各系统的处理功能。在过去,这个技术是有时被称为“在内存中处理。“多年来,厂商推出了各种设备领域,但这些努力失败或低于他们的承诺。

最近,几家公司已经推出了这项技术的新的和改进的版本。有很多种方法使用DRAM, flash和新的内存类型。其中很多是称为内存计算。这不是与内存数据库中的混淆的世界。

许多新的和所谓的内存芯片架构设计开车神经网络。在神经网络中,一个系统处理数据和识别模式。它匹配特定的模式和学习哪些属性是很重要的。

神经网络由多个神经元和突触。一个神经元可以用逻辑门由一个存储单元。神经元计算机,与一个链接称为突触。

神经网络函数通过计算矩阵产品和金额。它由三个layers-input、隐藏和输出。在操作中,模式是首先用一个神经元在输入层。模式是广播到其他隐藏层神经元。


图2:款大多multiply-accumulate来源:神话

每个神经元反应的数据。使用加权系统的连接,网络中的一个神经元反应最强烈的时候感觉一个匹配的模式。答案是显示在输出层。

神经网络比传统的系统是不同的。“如果你正在做一个通过神经网络,你有几十兆字节甚至几百兆字节的权重需要访问,”戴夫菲克说,首席技术官的神话,一个人工智能芯片制造商。“但他们基本上一次访问每一层,然后你必须丢弃,重量和得到另一个内存后期的网络。”

在一些系统中,神经网络是基于传统使用gpu芯片架构。GPU可以处理多个操作,但它需要“访问寄存器或共享内存读取和存储中间计算结果,“根据谷歌。这可能影响系统的功耗。

有很多种不同的方法来执行这些任务。例如,启动神话最近推出了一个矩阵相乘内存体系结构。执行内部的计算内存使用40 nm嵌入flash技术。

这是不同的比传统的计算使用的处理器和内存。“如果你建立一个处理器几百兆字节的存储器,可以满足您的整个应用程序。但你仍然要阅读SRAM和获得数据正确处理元素,”神话的菲克说。“我们避免,通过处理直接在内存数组本身。我们的目标是最小化,尽可能多的数据移动。我们有一个积极的方法,我们不会移动数据,更不用说把它从DRAM芯片。我们也不用担心移动数据的记忆放在第一位。”

通常,或将数据存储在一个数组的记忆细胞。神话的使用和一些细胞,但它取代数字与模拟外围电路。“我们的方法是模拟计算在数组中。数组有数字接口,”他说。“神话这40 nm制程,虽然这些其他系统在更新的过程节点。而其他系统设计师正在努力从7 5 nm,神话将扩展到28 nm。”

根据定义,神话是处理计算任务的内存。还有其他新颖的方式执行内存中计算任务,。一些人模拟方法,而另一些则发展SRAM和款电容技术。所有技术都在发展的不同阶段。

这个行业也一直致力于一个非传统的方法调用神经形态计算。在内存中有些人称之为计算,仍是数年的时间才能实现。

计算在内存中也使用了一个神经网络。不同的是这个行业试图复制大脑硅。目标是模仿的方式,信息从一个神经元群使用脉冲时间精确到另一个。

“这就是你建立一个计算结构在内存或者存储过程技术。你倾向于同一个地点协同工作计算函数里面,“微米Pawlowski说。“例如,我们可以读一行的内存,然后把它放在一个小DRAM结构和有一个好的缓存极低的延迟。”

为此,行业观察几种下一代存储技术,如FeFETs MRAM、相变和RRAM。这些都是有吸引力的,因为他们结合SRAM的速度和flash的non-volatility无限的耐力。新的记忆已经不再发展,不过,因为他们使用特殊材料和转换方案来存储信息。

然而,神经形态计算是一个不同的范式与众多挑战。

“在神经形态,脉冲可以在任何特定时间。在某些方面你可以量化,但他们是异步的类型的计算。其实这些脉冲,从各种各样的轴突。他们不来在同一时钟边界,”Pawlowski说。“另一个问题是如何让程序员很容易使用它而不是让它如此困难。很多工作我们正在做的是找到一个使用模型在软件框架来开始这个过渡的减少电力和能源,以及增加移动处理的性能接近,最终,在一个内存数组中。”

与此同时,仍然被认为是哪个是最好的记忆类型的任务。“我不知道哪种类型的内存会赢,但这将是记忆驱动的。我们必须解决功率密度问题。我们在一开始也改变了编程模型利用这一点。记忆是等级制度。这将是多层次、分布式,”雷努拉曼说,副总裁和首席架构师云架构和工程在SAP在最近IEDM面板。

near-memory是什么?
除了内存技术,还可以将记忆和逻辑芯片先进的集成电路方案,如2.5 d / 3 d和扇出。

一些称之为near-memory计算。像内存一样,这个想法是为了拉近记忆和逻辑的系统。

“世界正在推动更多的数据在系统。因此,处理器需要大量内存。和内存和处理器需要非常接近,“说丰富的水稻,在日月光半导体业务发展高级副总裁。“那么,你需要包装解决方案,使它,不管它是2.5 d或一扇出衬底的方法。这也可以像package-on-package流行结构。”

2.5 d,死亡堆积在上面插入器,包含了在矽通过(tsv)。插入器充当芯片和董事会之间的桥梁,它提供了更多的I / o和带宽。

例如,供应商可以合并一个FPGA和高带宽内存(HBM)。HBM栈DRAM死在对方之上,使更多的I / o。例如,三星的最新HBM2技术由8个8 gbit DRAM模、堆放和连接使用5000 tsv。这使得307 gbps的数据带宽。在传统的DDR4 DRAM,最大带宽85.2 gbps。

下一个叫做HBM3 HBM版本,支持512 gbps的带宽。它将有一个128 gbit密度,相比64 gbit HBM2。

除了2.5 d,该行业正在进行3 d-ics。3 d-ics,想法是栈内存逻辑芯片而死,或逻辑死对方。模具是使用一个活跃的插入器连接。

“2.5 d使互连密度增加一个数量级。你试图解决的是内存带宽和延迟,”大卫·麦肯解释后工厂开发和运营的副总裁GlobalFoundries

3 d-ics启用更多的带宽。”而不是互连芯片的边缘,您使用的是整个“X”由“Y”表面积,”麦凯恩说

此外,该行业正在与HBM高密度扇出的一个版本。“这是为了替代一个插入器的解决方案对这些市场。它提供了一个低成本的解决方案,有更好的电和热性能比硅插入器结构,”资深的工程总监约翰·亨特说日月光半导体

显然,有很多活动,如果不混乱,和near-memory技术。目前尚不清楚哪些技术会获胜。这个舞台上的尘埃还未落定。

有关的故事

内存中计算挑战成为舆论焦点

内存计算


https://新利体育下载注册www.es-frst.com/whats-the-right-path-for-scaling


1评论

Ranga ChaitAnanda信德 说:

英特尔的3 d-xpoint内存是一个潜在的解决方案的实现。

留下一个回复


(注意:这个名字会显示公开)

Baidu