中文 英语

DRAM热问题达到危机点

晶体管密度和利用率的增加正在产生内存性能问题。

受欢迎程度

在DRAM领域,热问题正处于危机点。在14nm及以下,在最先进的封装方案中,可能需要一个全新的度量标准来解决热密度如何越来越多地将小问题变成大问题的乘数效应。

几个过热的晶体管可能不会对可靠性产生很大影响,但几十亿个晶体管产生的热量却会影响可靠性。这对于AI/ML/DL设计尤其如此,高利用率增加了散热,但热密度影响着每一个先进的节点芯片和封装,这些芯片用于智能手机、服务器芯片、AR/VR和许多其他高性能设备。对于他们所有人来说,动态随机存取记忆体位置和性能现在是首要的设计考虑因素。

Nantero首席系统架构师、JEDEC DDR5 NVRAM规范的作者Bill Gervasi指出:“我们说,从0到85°C,它是单向工作的,而在85°到90°C时,它开始发生变化。从90°到95°C,它开始恐慌。在95°C以上,你就会开始丢失数据,所以你最好开始关闭系统。”

Gervasi说,这些数字是基于14nm技术的。他预计高级节点和高级封装的情况会更糟。“当你缩小到10纳米、7纳米、5纳米或3纳米时,会发生什么?你的连杆失控了。你让自己更容易受到相声的影响,所以rowhammer开始成为更大的危机。这是一个非常严重的问题。”

其中一个主要原因是DRAM的基本设计。尽管DRAM接口的数量不断增加——无论是DDR5、LPDDR5、GDDR6、HBM还是其他接口——但它们都保持了基本相似的结构。

“DRAM芯片的核心基本上是一个连接到开关上的非常小的电容器,”西门子电子产品营销集团总监Marc Greenberg表示节奏.“要将数据写入该单元,就需要允许电流流入该电容器。为了从电池中读取数据,你要感知电容器上是否有电荷。”

不幸的是,这导致了一个众所周知的缺陷。格林伯格说:“储存在这些微型电容器上的电荷量相对较小。“当它变热时,它非常敏感地泄漏。”

无论架构多么新颖,大多数基于dram的内存仍然存在过热导致性能下降的风险。易失性内存的刷新要求(作为标准指标,大约每64毫秒刷新一次)加剧了风险。Greenberg说:“当你把温度提高到85°C以上时,你需要更频繁地刷新电容器上的电荷。”“所以,你将开始转向更频繁的刷新周期,以解释这样一个事实:由于设备越来越热,电荷更快地从电容器中泄漏出来。不幸的是,刷新该电荷的操作也是一个电流密集型操作,会在DRAM内部产生热量。它变得越热,你就越需要刷新它,但然后你会继续让它更热,整个东西就会崩溃。”

这是不归路。“如果一个DRAM由于热/热流而失效,那么其他DRAM很可能也会失效,”Steven Woo说Rambus.“原因是所有的dram通常都靠近彼此,所以如果温度很高,那么对所有dram都是危险的。即使使用健壮的服务器内存系统,由于与热相关的故障而损失几个dram也可能意味着整个系统失败。所以热量和热量对存储系统来说真的是一个大问题。”

不仅仅是服务器。一个芯片上有大约80亿个晶体管,手机可能会变得非常热,可能需要在冰箱里放几分钟。当这种情况发生时,应用程序将无法正常运行。

密度越来越大,情况也是如此先进的包.“热量成为内存的一个问题,特别是当使用堆叠技术时,比如在逻辑之上使用SRAM,”研究人员Victor Moroz说Synopsys对此的家伙。“当你这样做的时候,会有一些影响,因为当它从相邻的逻辑中获得热量溢出时,这对内存来说是一件坏事——对于SRAM来说,不是那么多,但对于DRAM来说,这是一个大问题,因为这个刷新时间是指数级依赖于温度的,因为它是一个结泄漏。当您将DRAM与逻辑放在同一个包中,并且如果它是用于高性能计算的逻辑,那么DRAM将受到影响。你的刷新时间缩短了,你必须更频繁地刷新它。”

近年来,对耐热材料的要求不断提高。“我刚加入公司时,0°C或零下40°C可能是低端,100°C或110°C可能是高端,”Woo说。“但如今,汽车行业需要一些最极端的温度保证。”

较高的温度会导致更高的刷新率,这会降低性能,尤其是在数据量大的应用程序中。“在某些情况下,如果温度接近可接受的工作范围的上限,系统可能会选择提高dram的刷新率,”他说。“DRAM保存数据的时间取决于温度,在较高的温度下,为了确保数据不丢失,刷新率可能需要提高。更高的刷新率意味着我们占用了DRAM的一些带宽,因此在更高的刷新率下,系统的性能可能会受到影响。”

这必须融入到设计中。Gervasi解释道:“例如,如果你正在设计一个I/O控制器,你就会遇到这种数据流,你需要吸收这些数据流。“在DRAM领域,也就是今天所有线路卡的设计领域,如果一个DRAM刷新了350纳秒,那么内存就离线了。但数据流不会停止。这意味着你必须围绕350纳秒的缓冲数据来设计整个架构,然后才能再次开始清空缓冲区。”

尝试调整刷新率会导致不愉快的权衡。Gervasi说:“现在系统性能的5%仅仅用于保持已经编写的内容。“这是解决办法吗?”显然是这样的,因为如果人们想在85°C以上运行,就必须放弃一些系统性能,以获得数据完整性。”

记忆选择很重要
为了应对这些问题,半导体生态系统正在尝试多种解决方案,以最大限度地减少热问题并提高可靠性。LPDDR通过整合一种称为“温度补偿自刷新”的功能来解决刷新问题,at的内存解决方案项目经理Randy White指出Keysight.“当你需要刷新你的记忆库时,你在模具上有一个内置的温度传感器。有一个查询表说,“核心温度每升高一度,你就需要相应地增加刷新周期的频率。”同样,DDR5 dram现在也包含了一个内部温度传感器。设计一个精确的模具温度传感器是很困难的,所以它只能精确到+/-5°C。但总比没有强,DDR4就是这样。这至少有助于了解何时打开风扇,并大致了解气流设计的有效性。”

在标准层面,JEDEC一直在尝试可能的修复方法,Gervasi说:“我们已经在DRAM内部设置了热触发点,并讨论了在下一代DRAM中设置后门访问端口的可能性,在那里DRAM可以说,‘我这里太热了。你需要做点什么。要么降低数据访问速度,要么加快风扇运行速度。’”

格林伯格说,市场上已经流行的一种方法是在芯片中内置纠错功能。“在更先进的DRAM类型中,像LPDDR5和DDR5这样密度非常大的DRAM,内存制造商正在实现芯片上的错误校正。当一个比特因为电荷泄漏而无法读取时,DRAM设备上的纠错电路能够通过将周围其他比特单元中应该包含的数据拼凑在一起,以及一些纠错位来纠正错误,这些纠错位也包含在DRAM芯片中。”

这种技术使存储器制造商能够提供扩展温度范围的DRAM。许多方法都是基于汉明码,这是一种可以追溯到穿孔带时代的错误纠正方案,但仍然可以帮助纠正一个错误并检测两个错误。更先进的方法也进入了市场。当然,没有人会透露他们的专有算法,但在之前的一篇博客文章中,Synopsys的高级技术营销经理Vadhiraj Sankaranarayanan给出了DRAM纠错的高级概述。

Cadence和其他产品还提供了在ECC上已有的高可靠性应用程序之外的额外校正。

微流控冷却技术已经困扰了该行业十多年。除了散热器、风扇或外部液体冷却的标准商业冷却元件外,学术实验室正在进行的实验正在将冷却直接集成到芯片中,这种方法被称为集成微流控冷却,其中微流控通道被蚀刻到芯片中,允许冷却液体流过。

虽然这听起来像是一个近乎完美的解决方案在理论上,并已被证明在实验室工作,约翰Parry,工业领导,电子和半导体西门子数字工业软件他指出,这种技术不太可能在商业生产中奏效。“你会遇到各种各样的问题,从流体的侵蚀到泄漏,当然,因为你正在处理非常小,非常精细的物理几何。他们很兴奋。我们通常发现可靠性最低的功能之一是机电设备,如风扇和泵,所以最终会在许多不同的方向上变得复杂。”

不同的方法
Nantero的NRAM是一种经过彻底重新思考的存储器设计,它成功地走出了实验室。它不是DRAM,而是一种由碳纳米管制成的不易挥发的芯片,并且已经证明它可以忍受极端的热条件。概念的证明:在太空中进行了测试,在修复哈勃望远镜的航天飞机任务中,Gervasi指出。

对于JEDEC, Gervasi正在开发允许NRAM芯片无缝插入DRAM的规格。但不管NRAM最终能否成功,他相信碳至少为解决热难题提供了一条出路。“碳纳米管是卷起来的钻石。它们几乎是一个热分布。即使他们不把它们作为存储单元,它们也会被部署起来,因为这是一种很好的传热和热量分配的方式。碳纳米管还被讨论用于印刷电路板布线或芯片布线,因为它在热分布方面非常完美。”

无论选择什么芯片和其他组件,它都是必不可少的左移位并在设计阶段模拟热问题,而不是将它们视为稍后可以解决的不便,格林伯格说。“你一定要考虑事情会变得有多热。这通常是事后才想到的。人们只是假设要做你必须做的计算工作,你总能买到更大的散热器。那些生产电池驱动设备、手机、平板电脑和手表的厂商担心的是功耗,而不是热量。大量的模拟技术可以用来提高功耗和改善热状况。”

当然,生产前的模拟需要与生产后的物理分析相配合,具体来说,就是测试芯片,并根据它们的表现进行分箱。Rambus的Woo说:“如果可以的话,你真的想做一种设计,因为这可以让你有规模经济。”“然后你可能想要根据不同的规格进行测试。测试流程是当你有机会说,‘这个设备实际上覆盖了非常广泛的范围,所以也许我们可以把它卖到汽车市场。’”

最后,如果情况变得非常糟糕,可以更改规范,但这对于某些用例(如移动设备)来说可能是一场灾难。相比之下,允许大型数据中心的芯片温度升高可能会带来惊人的环境效益。在这一点上,Keysight的White回忆说,有一家公司曾经要求JEDEC将工作温度的规格提高5度。对潜在节省的估计是惊人的。根据他们每年用于冷却的能源消耗,他们计算出5度的变化可以转化为每年关闭三座燃煤电厂。JEDEC最终在这个建议上妥协了。

相关的
保持IC封装的低温
工程师们正在寻找从复杂的模块中有效散热的方法。
采用晶片误差校正和相关可靠性技术的DRAM芯片
先进包装的未来挑战
osat正在努力解决一系列问题,包括翘曲、热不匹配、异构集成以及更细的线条和空间。
芯片热地板规划
许多因素会影响模具或IP的温度,但如果不进行热分析,可能会导致系统失效或性能不佳。
在系统中映射热量
解决热问题需要结合更多的工具和策略来消除热,并在设计流程的早期进行更准确的热分析。



5个评论

西蒙 说:

考虑到我们甚至没有真正尝试主动冷却DRAM模块atm,我不认为这个问题是一个大问题。

这可能会使GPU更酷的设计复杂化,但如果它也影响VRAM的话。

显然是愚蠢的 说:

好的。所以开始卖带有热管和散热风扇的调光灯吧

Geeeeeee 说:

我用RTX 3080 TI苦苦挣扎了一段时间。我把GDDR6X芯片上的廉价热垫换成了一层薄的优质热膏和最好的薄热垫。即使是在ETH开采等压力下,报告的温度也从105摄氏度升至85摄氏度。GPU制造商需要阅读这篇文章,并理解他们需要改进他们的VRAM冷却设计,即使这要花费他们几美元。
或许芯片制造商需要升级芯片本身的散热系统,增加一个散热器?

大卫利瑞 说:

一篇有趣且信息量大的文章,谢谢你,凯伦。从我的经验来看,业界普遍认为在高温下DRAM位元电容泄漏会使偏温应力测试(HTOL)失效,甚至可能损坏DRAM位元。这不是我的经历。现代DRAM,包括HBM,可以在高温(如> 125C)下安全进行功能压力测试,应用运行在10 MHz以上的标准内存模式。

考克斯 说:

作为一个在DRAM架构上工作了25年以上的人,最后一个陈述“现代DRAM,包括HBM,可以在高温(例如>125c)下安全进行功能压力测试”是非常具有误导性的。虽然DRAM实际上可能不会停止运行,但其主要用途(即保留数据)将受到显著影响,我的意思是超过105C会受到显著影响,更不用说125C了。当然,除非你什么都没做,只是不停地刷新记忆....这使得读写有点困难。

留下回复


(注:此名称将公开显示)

Baidu