中文 英语

数据中心降温

数据中心冷却没有完美的解决方案,但人们正在开发多种方法。

受欢迎程度

自从英国数学家和企业家Clive Humbly在大约20年前提出“数据是新的石油”这一口号以来,它一直是数据科学会议上的一个乐观的短语。但在工程领域,这越来越多地包括日常的硬件挑战,其中最主要的是如何冷却所有数据处理和存储的地方。

据估计,目前已经产生了65泽字节的数据,而且这个数字还将继续增长,在全球范围内造成巨大的环境成本。在单个企业层面,已经有巨大的资本/运营支出用于冷却和维护,包括人员配备和更换设备。

这一数据中心的挑战导致了一系列的冷却方法。虽然没人能说问题已经解决了,但对旧的方法进行了改进,以及一些新的想法,给更好地平衡需求带来了希望。

“我们在数据中心冷却方面已经取得了长足的进步,”Rita Horner,高级技术营销经理Synopsys对此观察到。“我们过去只是吹空气,这意味着调节整个房间或建筑结构。实际上,我们是在胡乱花钱解决这个问题。随着时间的推移,我们意识到我们浪费了大量的金钱和精力,并在识别问题所在方面变得更加聪明。”

数据中心布局
在基本层面上,数据中心的平面图已经发生了变化,比如当代的方法包括精心设计的布局,根据数据中心的面积确定功耗,通常基于2'x2 '的标准计算单位。因为服务器是数据中心中最耗电的设备,所以服务器机架被故意堆叠在“热”和“冷”通道中,各自的一侧彼此背对。

这些并排的架子都是面对面的,后面是热空气被吹出去的地方。霍纳说:“此外,这些数据中心通常位于一个高架表面,冷空气从底部吹起,以利用热量上升的优势,所以你只在一个地方流动空气,并有效地在加热表面上流动冷空气。”“然后,背部的热空气被吸走。”

该平面图的一种变化包括密封通道,其中热通道和冷通道被一个封闭的空间隔开,这平衡了温度。

空气的替代品
随着ML/AI需求的增长,以及下一代硬件性能的增长,冷却问题变得更加严重。根据Uptime Institute.[2]的数据,来自gpu的高端加速器在峰值功率下可以使用高达500W到600W的功率但问题不只是在极端。该研究所还显示,主流用途的热功率额定值在10年内翻了一番多。以AWS为例,该数字从2010年最高的120W飙升至2020年最高的280W。到2023年,一些下一代主流服务器处理器将进入350W至400W的范围,这意味着一些大容量服务器配置在满载时将接近1kW的功率。

这使得该研究所注意到,下一代服务器处理器的高热功率和较低的温度限制将挑战风冷的实用性,并阻碍效率和可持续性驱动,并且热功率水平正在快速接近服务器风冷的实际极限。

液体冷却
然而,这并不是数据中心内部有效冷却的终点。在20世纪60年代中期小型机和80年代个人电脑问世之前,几乎所有的计算机都是液冷的。2005年,IBM再次开始为其越来越薄的刀片服务器提供液冷。再加上更高的计算密度和更高的时钟频率,温度开始上升到一些服务器需要节流的程度——特别是那些位于服务器机架顶部的服务器。从那时起,液体冷却就开始慢慢地回到高性能计算机中,从游戏pc开始,这是有充分理由的。

“水的热导率大约是空气的25倍。Rambus.“如果体积流速足够高,水的载热能力可以比空气高几个数量级。”

物理学也有助于有效的设计。Woo说:“通常情况下,使用空气冷却,模块之间需要有一个最小的间隙,这需要将空气吹过。”“通过在管道中使用液体,你可以将模块间隔得比通常使用空气更近,这增加了整个系统的计算密度。水液冷却的一个好处是,现在每立方英尺我可以做更多的计算。”

考虑到这一点,水冷——甚至雾冷——已经加入了空气冷却的行列,成为数据中心冷却选择的一部分。

向数据中心喷射薄雾的成本比吹冷空气要低得多。任何曾经在亚利桑那州的露台上坐过的人都知道,这是非常高效的。无论有无雾霾,数据中心的湿度始终需要监控。过少则有静电放电的危险。过多会有腐蚀的风险。

对于数据中心应该冷到什么程度,也有一些明智的反思。一些数据中心运营商意识到,他们可以通过使用温暖的空气(或水)来保持设备的最佳温度来节省成本,而不是让数据中心的工作人员感到痛苦。

事实上,ASHRAE(美国采暖、制冷和空调工程师协会)的A2类设备热指南允许操作温度高达35°C(95°F)作为标准-在特定情况下甚至更高。然而,据正常运行时间研究所(Uptime Institute)报道,新的标准H1(高密度)建议在18°C(64.4°F)至22°C(71.6°F)之间的较低送风温度带。

多物理场模拟可以帮助建模水基还是空气基冷却系统最有效。

“计算流体动力学适用于任何流体,”Marc Swinnen指出有限元分析软件.“所以同样的方程应该适用于空气和水,因为原则上它们都是流体,尽管热容因粘度和其他特性的差异而不同。”

这些结果将为比较水基系统与空气基系统的总拥有成本提供额外的数据点。

环保的替代品
一个值得注意的缺点是,将系统保持在最佳温度所需的能量可能会破坏最好的环境和资本支出目标。霍纳指出:“你可以在数据中心以每月2000美元的价格租用一个机架,但却要支付1000美元的电费,即使它只是2'x2 '。”

环境友好型的冷却方法包括将数据中心建在地下,或者至少将它们保存在地下室,或者将它们放置在气候更冷的地方。随着太阳能电池板的使用,即使是沙漠也可以成为数据中心的合理位置,因为太阳能电池板在晴朗的日子里吸收能量。在晚上,如果没有水蒸气来吸收热量,温度会大幅下降,足以为室外提供冷却。事实上,根据美国宇航局虽然沙漠白天的平均温度可达38°C/100°F,夜间温度可降至-4°C/25°F。

数据中心选址最基本的考虑因素之一可能是规划地点的当地公用事业费用是多少,以及它是否特别容易受到环境因素的影响气候变化

得益于最近光子学在速度和传输距离方面的进步,它还可以在数据中心之间转移工作负载,而几乎没有可检测到的延迟。在有时被称为“跟着太阳/跟着月亮”的方法中,工作负载在不同时区的数据中心之间进行权衡,随着不同地方的夜间来临,增强了自然冷却。

最大胆的地理解决方案是海洋,正如微软两年前在苏格兰奥克尼群岛(Orkney Islands)附近海域进行水下数据中心实验时所展示的那样。它的项目纳蒂克不仅展示了冷却的优势,而且允许极端的内部环境控制,没有典型问题的风险,如污染,潮湿,甚至只是被人类工人推挤。“它给出了一个近乎恒定的边界。容器外的温度保持相当稳定,因为海洋中有如此多的水,其热容量非常大。”

水下数据中心很可能成为监管的噩梦,这是一个合理的假设。尽管如此,微软的实验仍可能为陆地上持久的变化指明道路。它的成功执行需要设计一个系统,可以运行近五年的免维护。

在纳蒂克从深海中出来的时候,微软特殊项目董事总经理诺曼·惠特克(Norman Whitaker)告诉《纽约时报》[3],在如此低的维护要求下,有可能剥离数据中心仅为方便人类使用而存在的部分。如果这样的设计可以商品化,初始和替换硬件的成本以及劳动力都有可能降低。有可能将精简的服务器放置在最凉爽的环境中,让它们在没有物理干预的情况下运行多年。

微软现在还没有数据舱。该公司发言人表示:“我们将继续将Natick项目作为研究平台,探索、测试和验证围绕数据中心可靠性和可持续性的新概念,例如液体浸泡。”

最后,初创公司龙星(Lonestar)为月球数据中心筹集了500万美元,为云计算的概念带来了新的变化。它的第一个发射定于2023年6月举行。

浸没式冷却
还有其他的选择。采用浸没式冷却并且/或讨论了几十年.它的基本概念是在非导电介质液体中进行计算,以冷却系统,它再次看起来像是解决当代热问题的领先竞争者。回到20世纪80年代,沉浸式冷却似乎会从超级计算站点迁移到企业数据中心,但当CMOS晶体管变得流行并有助于控制热预算时,以前先进的想法变成了passé。

事实证明,这只是物理学的暂时休战。在当今finfet、先进封装和以zettabytes为单位测量数据的世界中,浸没式冷却已经重新流行起来,整个行业都致力于提供解决方案。根据Technavio据估计,2023年至2027年,全球数据中心液体浸没式冷却市场规模将增长5.3754亿美元。

在百亿亿次级计算机上,甚至还有液体和泡沫的混合物,HPE Cray公司在其Shasta超级计算机中使用了这种混合物。Woo在2018年ACM/IEEE超级计算会议上看到了Shasta的内部结构。他说,最值得注意的是液体冷却和靠近记忆的泡沫的结合。

“当你观察叶片时,你可以看到相互平行的管子,”Woo说。“这些实际上是它们之间运行的内存模块。该管被一层柔韧的粉色泡沫包裹,与DIMM模块接触,将热量传递到液体流动的管中。这都是一个连续的液体回路,它穿过所有的东西,把热量吸走。”

图1:带冷却系统的Cray(现在是HPE Cray) Shasta计算机刀片。来源:Steve Woo

图1:带冷却系统的Cray(现在是HPE Cray) Shasta计算机刀片。来源:Steve Woo

不同的方法
除了试图通过建模来预测问题之外,Horner还建议人工智能可以先发制人地解决数据中心的问题。“通过在冷却的地方增加越来越多的智能,你可以降低冷却成本,更专注于你需要的地方。许多高端数据中心都在使用人工智能来监控何时何地需要冷却。通过识别设备、设备和需要冷却的时间,他们可以将冷却引导到该位置,而不是冷却整个系统、整个建筑物、整个机架或房间。”

人们普遍认为,仅仅靠新颖的冷却系统无法解决热问题。答案必须从设计开始。Cadence公司的杰出工程师马克·西摩(Mark Seymour)表示:“只有两种方法可以做到这一点。“一个是材料和部件的标准化。另一种方法是让人们在设计系统时更清楚地认识到他们在集成什么。”

这是一个规模和相互作用领域的问题。一方面,芯片和封装设计师正专注于他们的热问题。另一方面,数据中心的设计者们正专注于他们的设计。因此,由于没有人考虑全局,单个服务器的升温可能会引发数据中心内的级联。

西摩说:“我们有两个独立开发的系统之间的耦合,实际上没有人能控制。”“当他们想要消除热量时,设计师需要开始考虑他们设计的机制是否与数据中心可能存在的机制兼容。当有人设计数据中心时,他们必须问自己,他们将容纳什么样的东西,以及他们的期望是什么。”

结论
减少能源使用至关重要。可以创造的能量是有限的,而数据中心至少消耗了这个数字的百分之几,而且未来需要完成的计算量还没有尽头。

西摩说:“我们这么做是因为我们在努力创造一个更好的地球,所以这不是一个选择。”“我们必须在这方面做得更好,特别是考虑到即将出现的增长。我们必须想办法不让它成为世界的一个重大问题。我们必须迈出这一步。设计师面临的挑战是如何迈出这一步。仅仅切换到配备最新冷却系统的新数据中心是否更环保?还是说,尽可能长时间地使用建筑库存更环保,因为新建筑中包含了碳?这些都是我们作为一个行业必须努力解决的问题。”

其他人也同意。霍纳说:“在降低芯片功耗方面,我们已经耗尽了所有容易实现的目标,而且已经到了这样的地步:缩小技术并不能真正帮助我们提高功耗或性能。”“这就是为什么现在用更小的技术进行设计具有挑战性,以及为什么从更小的技术节点中获得能量收益更难的原因。尽管如此,我们还是需要为此做些什么,因为我们负担不起这些数据中心或我们的典型计算增加的功耗。我们现在面临的现实是,一切都很重要。”

参考文献

    1. Statista。2010年至2020年全球范围内创建、捕获、复制和消费的数据/信息量,以及2021年至2025年的预测.https://www.statista.com/statistics/871513/worldwide-data-created/
    2. Bizo D。硅热浪:即将到来的数据中心气候变化。UI情报报告2022年第三季度。正常运行时间研究所情报。https://uptimeinstitute.com/uptime_assets/4cf0d2135dc460d5e9d22f028f7236f7b5c3dd2f75672c3d2b8dfd4df3a3eea6-silicon-heatwave-the-looming-change-in-data-center-climates.pdf
    3. 微软探测海洋深度以测试水下数据中心。《纽约时报》2016年1月31日


留下回复


(注:此名称将公开显示)

Baidu