中文 英语

为什么数据中心的电力永远不会下降

效率正在显著提高,但数据量增长更快。

受欢迎程度

数据中心已经成为能源的重要消费者。为了应对数据中心及其内服务器的激增,人们大力推动降低所有数据中心组件的能源消耗。

经过这些努力,数据中心的电力真的会下降吗?答案是否定的,尽管能源效率有了巨大的提高。

“在本世纪20年代,保持数据中心电力消耗持平将比以往任何时候都更加困难,”华为基础设施业务产品解决方案副总裁Dermot O 'Driscoll说手臂.“有人预测,如果没有实质性的创新,数据中心的功耗可能会增长2到7倍。”

在新的基础设施和整体全球开发的推动下,工作负载将急剧增加。O 'Driscoll说:“人工智能、5G和物联网推动了对数字服务的需求,与此同时,新兴经济体正在建设数字基础设施,以帮助缩小数字鸿沟。”

预计的电力削减可能会使电力的增长速度赶不上数据中心内的工作速度。这意味着更高效的处理,并使电力处于控制之下。但它不太可能直接降低电力。这就提出了一个问题,即额外所需的能源从何而来,以及是否可以脱碳。

这一切都是在数据急剧增长的背景下发生的。“全球有一半的数据是在过去两年创造的,”微软电子和半导体业务部门主管里奇•戈德曼(Rich Goldman)表示有限元分析软件.我们收集所有的数据,这样我们就可以做一些工作。

为了降低数据中心的能源消耗,人们付出了巨大的努力。这个谜题有很多部分,它们都得到了关注。粗略地说,最主要的贡献者包括服务器本身,数据中心内部和之间的互连,以及防止过热所需的冷却。

这些部分的具体作用取决于正在执行的特定工作负载。机器学习训练和比特币挖矿是能源密集型计算的两个例子。

考虑到从长远来看正在努力减少所有这些,人们会认为数据中心能源消耗的持续增长可以被遏制,然后降低。总的来说,这种情况不太可能发生。

提高能源效率
所有的节能努力都只为一个目的——在给定的能量下做更多的功。这在计算领域是显而易见的。只要单位能量所做的功增加,效率就会增加。

计算效率肯定提高了。挑战在于,即使我们现在可以用更少的能量做同样的工作,但净工作量正在急剧增长。

但到目前为止,我们所能实现的效率提高是非常有效的。虽然有观点认为数据中心的能源消耗正在以指数级的速度增长,但事实可能并非如此。

“从2010年到2018年,数据中心的工作量增加了6倍多,”微软解决方案和生态系统高级集团总监Frank Schirrmeister说节奏.“互联网流量增长了10倍,存储容量增长了25倍,而数据中心的能耗变化很小,仅增长了6%,达到205太瓦时。”

总的来说,全球大约2%的能源用于数据中心。该公司产品营销经理Priyank Shukla表示:“到2020年,数据中心的总用电量约为300至440太瓦时Synopsys对此.“这可以为伊朗整个国家提供电力,这还不包括比特币挖矿。”

Schirrmeister说,能源消耗需要在大背景下看待。“实际上,我们需要一个不同的指标来定义我们正在谈论的内容,因为通信、计算和存储的增长远远超过能源消耗的增长。”

今天使用的一个度量标准是用电效率(PUE),这是对消耗在头顶上的能量的粗略衡量。它是使用的总能量除以用于计算的能量。理想值为1表示根本没有开销。

Shukla说:“今天,数据中心的运行功率为1.08到1.12 PUE,这意味着在进行数据处理时消耗的总功率仅比总功耗低8%。”

确切地说,什么被排除在开销之外是不清楚的。它涵盖的一个要素是电力分配系统在进入建筑物的电线和流向服务器的电力之间的任何损失。

该公司营销、电源管理、电源和传感器解决方案业务部门主管Rakesh Renganathan表示:“这意味着我们必须建造更高效的电源。英飞凌.“仍有创新可以让处理器更高效地工作。”

然而,随着越来越多的电力输送到每个服务器,我们不能增加电力基础设施的规模。Crocus系统和应用工程副总裁Anuraag Mohan说:“数据中心的电源供应继续追求更高的功率密度,这意味着在相同的物理尺寸下有更多的功率。”需要更高性能的传感器来管理更高的密度,并确保更有效地使用能源。

冷却和照明也包括在PUE开销中,尽管冷却部分只包括整个建筑物的冷却,不包括服务器风扇。

互连
在衡量实际完成的工作时,计算应该占主导地位。其他一切都是为计算服务的。其中一个主要的能源贡献者是移动数据的成本。

Shukla说:“互连功耗约占总功耗的27%,处理功耗约占20%。”

其他人也指出了类似的趋势。“我们看到的是,在如此大的电力预算下,越来越多的数据被转移到各个地方,”ibm的杰出发明家史蒂文·吴(Steven Woo)说Rambus.“芯片上的数据移动,人们通常不会想到,也会消耗更多的电力。”

降低这种功率的一种方法是使用具有更多端口的网络交换机——所谓的高基数交换机。这允许在一个盒子内进行更多的切换,减少了到达更遥远目的地所需的跳数。具有256个端口的新交换机应该有助于实现这一点。

图1:数据中心的网络。通过增加交换机的端口数量,可以在一个盒子内建立更多的连接,这意味着更少的跳跃到脊柱再返回。来源:Synopsys对此

有了这些联系,并行转换器特别是权力已经增长了许多倍。SerDes是两种基本互连技术的一部分。首先,它们是PCIe固有的。承载PCIe通信的物理线路使用SerDes技术,这方面可以从最新一代的PCIe中受益。Shukla说:“如果你改用PCIe 6,业界预计你将节省30%的电力。”

当使用可插拔模块时,光纤连接也需要SerDes技术。这些模块插入服务器的外部,光信号在那里被转换成电信号,最后传递给CPU。电气“最后一脚”使用SerDes技术。

降低互连功率的一种方法是从PCIe电互连转向更多的光互连。虽然光学通常用于长距离,而且在中距离(如数据中心之间或校园内)方面也在增长,但在相对较短的距离内,它还没有在建筑物内得到利用。

但是在这样做的同时节省电力可能需要更多的步骤。搬到相干调制可抵消由于所需的额外数字信号处理而节省的电力。虽然在较长的连接中电源会下降,但尚不清楚在较短的连接中是否会发生这种情况。

此外,通过将光纤一直运行到使用的服务器中,可以进一步降低功率co-packaged光学,消除了连接的SerDes分支。

冷却
数据中心的另一个主要电力开销是冷却。为了便于记帐,冷却似乎分为两部分。设施冷却——例如,整体空调进入PUE的非计算部分。但服务器位于计算部分,它们有本地风扇或其他用于冷却的基础设施。

冷却占了电力的很大一部分,但它是用于不做功的东西。冷却只是为了防止计算硬件烧坏。GRC的产品营销总监Larry Kosch说:“所有数据中心电力用于冷却的百分比可能有所不同,但我想说的是,平均百分比在40%到45%之间。”

一般来说,冷却分布广泛的电源要比冷却单个炙热的芯片容易得多。Woo说:“当能量集中在一个非常小的区域时,试图冷却一个200瓦的芯片是一回事。“如果你能以某种方式将200瓦的功率分配到多个芯片上,那就是另一回事了。通过分散它,从冷却的角度来看,这是一个更简单的问题,因为功率密度要低得多。”

人们想出了几种减少冷却的方法,其中一些涉及液体。“现在有更多的芯片使用基于液体的冷却,例如,它们有一个散热器,它接触硅,并且这个散热器是空心的,”Woo继续说。“他们所做的就是让液体流过散热器,这样就会把热量吸走。”这需要机架内额外的基础设施来输送和回收液体。

他补充说:“人们对所谓的浸入式冷却也更感兴趣,就是把你的电子板浸入一种电惰性液体中。”

液体可以更有效地传递热量。Kosch说:“每个机架浸泡计算密度(每个机架100+kW)很容易超过风冷机架(每个机架~15kW),因为它能够高效地冷却信息技术设备(ITE),并且很少或没有水分损失。”

一种浸泡方法被称为单相浸泡,仅依赖于冷却剂的液相。这种冷却剂被循环以促进冷却。

另一种方法称为两相浸没,这样命名是因为冷却过程同时发生在冷却剂的液相和气相。服务器被浸泡在液体中,但液体在芯片表面沸腾,上升的蒸汽充当了传热机制。据称,自然对流过程可以减少对泵和其他基础设施的需求。

用液体包围电子设备不太直观,但如果液体是电介质,就不会短路。只要化学成分正确,就不会发生腐蚀或降解。

Kosch表示:“尽管可以将ITE设计为风冷式(只需要进行一些微小的修改,如关闭风扇、调整固件),但快速增长的采采率已经产生了足够的需求,ITE oem已经将浸泡式服务器推向市场。”“众所周知,微软已经采用了两相浸入式冷却,亚马逊则依赖于直接对芯片冷却。在这个市场上,单相浸没式冷却是有一席之地的。”

图2:单相浸没式冷却架。服务器刀片垂直插入介质冷却剂中。这里展示的是移动数据中心机架。来源:GRC

图2:单相浸没式冷却架。服务器刀片垂直插入介质冷却剂中。这里展示的是移动数据中心机架。来源:GRC

更简单地说,在优化冷却时,位置也很重要。Facebook在俄勒冈州普林维尔设立了一个数据中心,部分原因是那里的气候比较凉爽。Woo说:“他们可以用管道引入温度较低的室外空气,这使他们更容易冷却,因为他们不需要让空气变冷。”

在一个极端的例子中,微软有一个名为Natick的演示项目,在这个项目中,服务器被放置在一个密封的容器中,并在海洋中浸泡了两年。Woo解释说:“他们将一个小型数据中心沉入海洋,以获得一个非常好的热控制环境。”“你被恒温的水包围着,这些水有巨大的吸热能力。”

服务器不仅存活了下来,而且更有效的冷却带来了更高的可靠性——服务器故障率是同等的陆上服务器的八分之一。

更高效的计算
虽然这些努力的部分目标是分配更大份额的能量用于实际计算,但这并不是真正的最终目标。真正的目标是做更多的功,这不仅需要更多的计算能量,还需要更高效的计算。

这可以通过许多小的改进来实现,但有三种更大规模的改进将产生更大的影响。

一是发明新的CPU架构的能力,这种架构本质上更高效。这不仅仅是关于低功耗电路设计,而是重新思考如何进行计算,以及如何在执行计算时减少数据移动的频率。

舒克拉说:“现在出现了新的处理器架构,可以节省处理能力。”

机器学习特别是中国正迅速成为一个能源消耗大国。但是机器学习有两个方面。最常见的是推理——使用已知的算法来解决问题。但这是可以相当有效地做到的——以至于它正在这样做在边缘在某些应用中甚至是在微瓦的水平。

模拟电路正在帮助这些架构,使用内存计算等思想。“乘法和累加可以在模拟中完成,”舒克拉说,暗指内存可以用于模拟计算的方式。

真正消耗机器学习能量的是训练,而且训练已经完成了几乎完全在数据中心。在训练新的机器学习模型时,需要继续努力以减少能量消耗。

最后,在更远的未来,光子计算有望实现。由光子“电路”进行的计算在名义上是无损的。能量的消耗主要是在激光的产生。光的变化可以用很少的能源成本来控制。

舒克拉说:“Lightmatter声称将减少30倍的功率。该公司正在开发光子计算技术。

再加上光子学可能的架构变化,以及在互连中增加使用光子学,这也有助于降低每单位计算工作的能源消耗。

实际能量限制
虽然很容易描绘出无休止地增加能源使用的画面,但对于给定的数据中心来说,这种增长是有实际限制的。

一方面是监管。当一个新的数据中心被允许建立时,它将从电网中分配一定量的能量——根据数据中心和市政当局其他需求的可用能量。

他说:“那些你愿意建立数据中心的城市或地方,显然都在让数据中心变得越来越大。“但必须有一些限制,这个限制将由你将建立数据中心的地方政府来设定。”

另一个限制是建筑建造时的容量。有远见的建筑师总是会为增长做准备——即使预期允许的能源使用可能会增加。但一旦该建筑完工,增加配电能力可能不是小事。

这在某种程度上限制了现有数据中心所消耗的能量。更大的增长不是来自使用更多能源的建筑,而是来自新数据中心的建设。

能源来源
这些天,虽然我们的能源投入越来越大,但数据中心的电力仍在增长——只是以更谨慎的速度增长。考虑到未来10年预计的额外数据处理量,没有人相信净能源消耗真的会下降。

随着越来越多的设备连接到互联网,特别是随着电动汽车和自动驾驶汽车的连接,数据传输预计将大幅增长。至少,这意味着移动和存储所有的数据。

但是,如果这些数据不经过计算,就没有任何价值。分析和其他操作,其中许多涉及机器学习,将有更多的数据进行操作。这意味着需要完成的工作总量将大幅增长,可能会超过效率的提高。

这种能量从何而来?这里有两个挑战。首先是产生更多能源的能力——最好是在数据中心附近。但在我们试图降低能源生产的碳排放、依赖可再生能源并逐渐摆脱对化石燃料的依赖之际,这是必要的。

这是一个更大的挑战。我们究竟如何做到这一点还不清楚。虽然数据中心在全球电力使用中的份额仍然低于10%,但这是一个可见的部分。可以说,与许多其他领域可能确实会降低净能源消耗不同,它将继续增长的事实意味着它在总量中的份额将更快地增长。

戈德曼说:“人们已经准备好把数据中心放在水电和可再生能源附近,这样他们就可以从附近的东西那里获得大量的能源。”

随着越来越多的人将注意力集中到数据中心电力故事的这一方面,新的解决方案可能会出现。“我对如何脱碳有明确的路线吗?”席尔迈斯特问道。“还没有,但聪明的工程师会解决这个问题的。”

结论
最终,还有很多工作要做,没有迹象表明在可预见的未来,能源使用量会下降。我们也许能找到更友好的能源,但这种欲望不会轻易得到满足。

如果要在降低整体能源使用和用它做更多工作之间做出选择,选择将是显而易见的。这也是芯片设计师每天都要做的选择。戈德曼说:“对于每一种新工艺,我们都有一个选择——让它更强大,还是在同样的能力下降低功率。”“我们从不要求降低功率。我们追求更强大的能力。而在数据中心,我们也看到了类似的情况。”

Woo总结了半导体开发人员的底线:“对于半导体行业中像我们这样的人来说,可行的项目是使个人计算更高效——无论如何。”数据中心设计人员将尽可能多地利用它进行工作。



3评论

哈比卜Hichri 说:

为了降低功耗和提高延迟,进行了光学协同封装操作。我并不认为这是数据中心电力使用的解决方案之一。你能评论一下吗?

康拉德Chompff 说:

您是否同意减少用于容纳相同数量的功耗设备(交换机、电源等)的机架数量是降低数据中心所需总功耗的好方法?

埃德·斯珀林 说:

大多数数据中心永远不会减少机架的数量,但它们可以从每个机架获得更高的性能/瓦数。重要的指标不是每个机架的功率,而是每个机架的性能,如果功率预算不变或减少。这也减少了所需的冷却量。

留下回复


(注:此名称将公开显示)

Baidu