中文 英语

把记忆困难

处理器/内存瓶颈可以关闭,或应用程序需要重新架构避免吗?

受欢迎程度

在一个优化的系统,没有组件是等待另一个组件虽然是有用的工作要做。不幸的是,这不是处理器/内存接口的情况。

简单来说,内存不能跟上。访问内存是缓慢的,它可以消耗功率预算的一个重要部分。和普遍的共识是这个问题是不会很快消失,尽管努力推动记忆困难,速度更快,使用更少的力量?

“有图表显示内存瓶颈变得多么严重,”史蒂文说哇,研究员、著名的发明家Rambus。“如果你可以避免内存你应该。这只是良好的标准实践。如果你能避免网络,你应该。如果你能避免磁盘,你应该。但是当你看应用人工智能和网络规模的增长,人们想要实现,他们的增长速度超过了其他技术曲线可以跟上。唯一的办法是使用动态随机存取记忆体。当然,人们想避免使用内存,但我不明白如何实际的困难,更要求网络。”

问题是,一旦你被迫停止使用静态存储器集成片上,性能和功率迅速成为问题。研究表明,在分析能源消耗的一个简单的数学运算,如用或添加,一大部分的权力是在设置计算。

“如果你去DRAM芯片外的数据,大量的能量花在做移动数据,然后在芯片,“Woo说。“可以95%的力量。这告诉你,这是一个能源问题,这就是为什么每个人都想将计算和数据更紧密地联系在一起。”

内存和标准机构并不是静止的。“现在是一个有趣的时间记忆”Vadhiraj Sankaranarayanan领导说,技术营销经理Synopsys对此。“我们有LPDDR5电平今年早些时候发布的,和新DDR5将很快被释放。这些记忆的速度比他们的前辈们向更高水平发展。LPDDR5和DDR5都将有一个马克斯6400 mbps的速度,这是一个相当大的速度增加。内存标准发展既能提高性能,和架构上解决可靠性、可用性和可服务性(RAS),直接试图信道的鲁棒性。一些新的低功耗特性也会带来系统断电。”

移动内存接近处理
短导线较低电容,这既有助于性能和权力。“我们的目标是最小化总延迟,”说Karthik Srinivasan,高级产品经理有限元分析软件。“使记忆出现尽可能接近计算。为此,我们迄今为止最好的高带宽内存(HBM)实际上带来的内存包而不是让他们5或6厘米。HBM,记忆是几毫米距离计算。其次是片上内存,提供更高的带宽和最小延迟。”

但是你可能要努力使应用程序适应片上内存。“克服内存瓶颈,你必须分区决策,”说,法扎德Zarrinfar IP部门董事总经理导师,西门子业务。“你必须决定你想做什么在嵌入式的方式,将使用外部存储器。我们相信,如果你能减少数据移动或减少数据移动的长度,你提高性能和减少力量。”

总是有权衡。“HBM是设备的赢家需要很高的带宽每一点能量最低的指标,也可以用约束区域的PCB,”马克·格林伯格说,集团产品营销主管的IP组节奏。“有其他指标,HBM效果不会叠加。你可以期待所有的DDR技术成本低于HBM。”

Synopsys对此“Sankaranarayanan领导的HBM增添了更多的优势。“每个HBM DRAM你节省很多地区因为你不需要许多GDDR phy或后发来得到相同的带宽。HBM GDDR相比也有一个很好的功率效率。HBM提供了大量的带宽,效率更好的电源效率,但重要的是,它需要一个插入器集成SoC和HBM。使它更昂贵的。”

的公司插入器不是一个轻易决定,该行业仍在学习阶段几个方面。整体结构是“如何稳定?”ANSYS的Srinivasan问道。“整体可靠性是什么?热循环后,将如何影响弯曲疲劳吗?有机基板更厚、更稳定,但我们正在寻找更薄硅,尤其是当叠加多个死亡。当你投入更多的计算和内存更小的外形相对功率密度更高,热的影响进而影响疲劳、翘曲等。有业内表示需要看这些multi-die系统的结构方面。”

设计正确的记忆
冯·诺依曼建立计算系统的体系结构,我们使用。这是简单的,可伸缩的和灵活的。但是今天,我们每一个决定都必须重新审视,它可能不提供所有问题的最佳解决方案。

尤其如此,更多的权力状态和用例设计到设备,它可以包含非易失性记忆等闪光,MRAM,相变存储器以及挥发性记忆如DRAM和SRAM。

“我们有一个客户最近工作蓝牙低能量应用程序在那里,他们经常访问设备以读模式,“营销总监保罗•希尔说Adesto技术。“他们获取的软件设备,流动到缓存和执行代码。出于这个原因,他们有一个读模式中的功耗问题。但是偶尔,祝福设备进入休眠时,他们想要关掉芯片的存储设备,然后通过一种超低功耗模式。超低功耗模式的问题是起床时间更长,所以当BLE设备再次活跃有较长的延迟才能接下来的阅读教学。我们必须考虑的。我们有不同的权力模式存储设备可以操作。待机模式,低功耗模式和超低功耗模式。客户可以确定模式是合适的。”

也有影响,数据被存储,这一直是一个长期问题在记忆的世界里。

“数据本地化是一个问题,这个行业与多年来一直没有完全解决,“节奏的格林伯格说。“当人们在做专用硬件,他们可以控制好一点的数据匹配的位置应用程序的内存管理。他们可以组织数据都是在同一个页面的内存,这将减少电力使用。同时,你想组织数据的方式,如果你请求的数据从内存,您实际上可以使用所有的数据要求。一些算法做得很好。一些诸如缓存线填充和拆迁这样做很好。有时视频数据是可怜的。”

这个问题导致GDDR被创建。“如果你看看图形行业,他们是一个很好的例子,中科院的粒度,”吴补充道。“应用程序有一个自然粒度的数据,并给它多是有害的。它浪费资源,破坏缓存算法,等等图形要32字节的访问。几次行业试图使图形内存使用64字节的访问粒度和两次未来标准回到32字节的访问粒度。与GDDR6与GDDR5相比,而不是所有32位的DRAM接口专用于单个请求,我们把它分成两个16位的接口和对待他们就像两个单独的后发展出。因为每个现在一半的宽度,你可以倾倒的两倍位在这些电线和粒度仍然得到相同的列。这是16位宽,但两倍深,帮助设计的核心。它更紧密地匹配DRAM渴望转储每个请求更多的数据在每一个线,更自然的粒度要由应用程序。”

有可能,AI将特定需求的通道宽度,最终一个新的内存标准将优化对于这个应用程序吗?“手机用来用DDR然后当体积足够高,和需求成为不同的足够的主流,它的新标准,”吴表示。“同样的情况发生在图形。早期的图像使用DDR,最终有足够的容量和需求开发新类型的内存。人工智能可能也会出现类似情况。问题是,作为社会发展的需要,HBM不再满足这些需求吗?你需要更具体吗?的事情将决定寿命的这种类型的需求用例。如果有资金和足够的体积,可以激励DRAM生产能力足以建立一个新的标准。历史上,我们已经看到,市场会出现和建立新标准。”


图1:常见的人工智能应用程序的内存系统。来源:Rambus

开记忆更快
所有的内存接口驻留电平标准的伞下,一个组织自1958年以来一直存在。如前所述,电平是积极推进所有的记忆标准。“有四个当前和下一代标准都在积极开发,“格林伯格解释道。“GDDR6是随着时间的推移,我们预计更快GDDR6部分。HBM2E了很短的一段时间,9月份有一个公告关于速度更高等级的设备过剩的电平标准。我们已经看到公告从内存DDR5供应商对他们的计划。我们在早期的标准,所以我们可以预计,随着时间的推移得到更快。和LPDDR5标准有潜力为中年扩展频率范围的技术。”

信号完整性(SI)和电源完整性(PI)的限制因素往往是多快可以操作的接口。“DDR是模块化架构记忆系统在服务器和个人电脑,发现“Woo说。“总线拓扑不干净,从信号完整性的角度来看,你必须通过这些连接器和间断。这是一个原因很难扩展速度如此之快。但如果你看看HBM或GDDR板直接焊接的地方,这是一个更简单的接口和不需要经过一个连接器。使它更容易从信号完整性的角度来看,至少到目前为止,增加的速度。物理实现清洁。”

不过,很多分析。“如果是用来模拟通道,随着动力输送网络,以确保信号的保真度从司机到接收机实际上是维护“Srinivasan说。“你还需要考虑大量的耦合或损失因为权力的噪音或各种互联之间的耦合。最大的挑战之一是模拟能力。HBM你正在看一个128位的频道为每个堆栈。你必须模拟整个信号的痕迹,这遍历从一个到另一个使用死亡通过硅通过(tsv)插入器的痕迹,在父逻辑死,连同所有的动力输送网络。”

标准还建立在先进的功能,以确保可靠的通信。“每一个标准的目的是提供一个更高的速度和更低的I / O电压、“Sankaranarayanan领导说。“我们不希望失去的权力。所以你正在增加的速度和降低电压,通过电气和建筑特色。从电气角度看,LPDDR5中的一个新特性是判决反馈均衡(DFE)。这样做是为正确的数据打开眼睛。体育作为数据发送,DRAM捕获,DFE将的前端,打开眼睛的边缘。取样器读取数据,你正确地捕获的概率更高。是很常见的对控制器PHY DFE读取数据。随着速度的增加,这些措施在通道允许我们运营和更高的可靠性。”

结论
对于许多应用程序,处理器/内存瓶颈存在,虽然它有时会改善和恶化在其他标准发展。高容量应用程序确实有能力引进新的内存体系结构和接口,作为已经见证了几次为移动和图形。对未来的一个有趣的问题是人工智能/毫升,或新的非易失性记忆,将带来新的内存标准。

有关的故事
解决内存瓶颈
移动大量数据系统不再是通往成功的途径。太缓慢,消耗了过多的权力。是时候把方程。
将内存中处理工作?
冯诺依曼结构变化,避开可能的关键硬件低功耗毫升。
使用不同的内存来提高速度
获取数据的内存快添加一些意想不到的挑战。
内存中计算挑战成为舆论焦点
在冯诺依曼瓶颈研究者挖掘方法。
机器学习推论的边缘
如何设计毫升芯片不同于其他类型的处理器。
记忆知识中心
专题报告、头条新闻、视频、技术论文和博客关于记忆。



4评论

Tanj班纳特 说:

我们看到这些期货的一个问题是纠错不足。目前的唯一方案良好的ECC设计可靠计算DDR4与2 x4配置备用SDDC / Chipkill芯片。LPDDRx刚刚单点校正和疲软的完整工作可以较低的消费设备芯片计数,但不扩大的服务器会有成百上千的DRAM芯片每个CPU插座。所有的芯片——的混合体,LPDDRx GDDRx HBM——一切都提供超过4比特宽每个芯片都缺乏一个ECC的解决方案。

套用Dijkstra算法,讨论算法,最快的解决方案首先必须是一个正确的解决方案。我同意这篇文章,我们即将搬到更近,内存,CPU的速度耦合。但错误率和需要校正一直是盲点,这才能真正发生之前需要修复。

布莱恩•贝利 说:

谢谢你的评论Tanj。总是很难决定如何投入的一篇文章,可以让它太长了。这是一个额外的评论由Synopsys对此“Sankaranarayanan领导没有进入这篇文章,它可能为你提供了一些希望:

DDR4, ECC生成控制器和发送并存储在单独的达利克,然后读取数据,选举投诉委员会也读然后控制器确定如果一切是正确的。如果有一个错误,控制器可以纠正SoC和发送正确的数据。现在在DDR5了解瞬态错误的重要性,和瞬态错误的概率越高,可以发生在内存数组,因为数组本身更加密集。因此,介绍了一些额外的备件存储ECC比特每写数据,以便在DRAM, DRAM被读出,ECC可以纠正它,修正后的数据发送给控制器。

Tanj班纳特 说:

不幸的是,这是不够的。单比特错误如果这样可以最终结合另一个错误,成为不能修复的(见现场研究DRAM错误)。DDR5方法使得事情变得更糟:它并不真正保持足够的信息来允许CPU来定位,避免使用内存(计划避免故障),更重要的是,它会创建一个在DRAM 136位结构。DRAM错误故障的一个重要部分的列和行结构(本质上是在最高分辨率使用)。136位结构,所有激活的同时,变成了一个136位误差域。DDR5补丁的简单错误,这样做使困难的错误变得更糟。

DDR4和DDR5可靠的电脑,这是通过使用宽4比特芯片和2冗余解决芯片,所以任何一个芯片的故障(不管有多少比特)是可以纠正的。你做不到这一点,像LPDDRx或HBMx宽芯片。

而硬数据没有公布,可能multi-bit错误发生大约10适合(失败,每十亿小时)每DRAM芯片。这是普遍接受的消费产品。你的手机可能有4个DRAM芯片和你的笔记本电脑可能8。CPU可能适合的200年到300年的DRAM不是你最大的问题。适合的每年114约失败‰设备,为消费者齿轮不坏。

然而,服务器可能有大约320 DRAM芯片每个CPU芯片,所以在这种情况下10健康显然是坏消息,那将是一个最大的失败率。这就是为什么服务器使用4位宽DRAM 2备件。

问题是,就像你说的,建筑的需求更快的内存需求也是一个广泛的记忆,这是一些高端服务器的高性能是有趣的地方。但如果你失去了使用chipkill现在你回到凝视着那些令人讨厌的multi-bit错误精细结构的芯片。解决,将是必要的。

布莱恩•贝利 说:

由于Tanj——我真的很感激这附加信息的反馈。总是很难知道当你有完整的故事,而不仅仅是部分厂商想要听到的。

留下一个回复


(注意:这个名字会显示公开)

Baidu