中文 英语

数据中心服务器架构变更

共享资源可以显著提高利用率和降低成本,但这不是一个简单的转变。

受欢迎程度

数据中心正在经历一场根本性的转变,以提高服务器利用率和效率,优化架构,以便在任何需要的地方都可以利用可用的计算资源。

传统上,数据中心由机架式服务器构建,每个服务器提供计算、内存、互连以及可能的加速资源。但是,当选择服务器时,其中一些资源就没有使用,尽管数据中心的其他地方需要这些资源。在当前模型中,无法利用现有资源,因为服务器刀片是分区的基本单元。

这导致了超大规模数据中心的彻底重组,以更有效地使用计算资源,现在这个想法开始渗透到其他数据中心。

该公司市场营销、电源管理、电源和传感器解决方案业务部门主管Rakesh Renganathan表示:“亚马逊、微软和谷歌的运营规模要大得多。英飞凌.“几年前,他们从PC供应商那里购买服务器。现在他们正在建造自己的。规模足够大,他们今天可以影响和控制的简单架构更改可以节省数百万美元。”

增加灵活性听起来很简单,但它代表了一个巨大的变化。PCIe、CXL和接口IP at的产品营销集团总监Arif Khan说:“每个人都试图使数据中心资源成为一种随时可用的服务——无论是在软件方面,还是现在添加硬件作为随时可用的服务。节奏

现在出现了一种新的变化,通常称为“数据中心分解”,即不再将服务器作为基本单元。相反,各种资源被集中在一起,并根据作业的需要进行分配。但是组合和连接资源并不是一件小事。迁移到这个体系结构必须以一种渐进的方式完成,而不破坏已经存在的旧体系结构资源。

专注于混合
数据中心的概念一开始是一个多台服务器可以共存的地方,可以根据计算需求调用。然而,随着在数据中心进行的计算变得越来越密集,它可能超过单个服务器的能力。这一问题已经通过允许多台服务器同时使用来解决——理论上,可以使用无限多台服务器,只受可访问服务器数量的限制。

随着数据中心相互连接,可访问服务器的数量不再局限于特定建筑物或校园中的数量。随着光纤将不同的位置连接在一起,更远的距离将不再有过去存在的延迟问题。

所有这些都有助于可伸缩性——根据任何特定工作的需要来扩展资源的能力。然而,这样做之后,我们现在面临着下一个层次的低效率——在给定工作中使用的资源组合。例如,给定的刀片可能有一个充分利用的CPU, GPU帮助执行一些工作。Renganathan说:“你有一个解决方案,我可以最大化我的CPU使用率,但我的GPU只虚拟化了30%。”“这意味着70%的费用是没有投资回报的。”

与此同时,需要处理的数据量正在加速增长。“我们甚至还没有讨论5G成为主流,”Renganathan指出。“因此,我们生成的数据量仍然有些稀释。”

数据中心很清楚这种即将到来的数据洪流。Cadence解决方案和生态系统高级集团总监Frank Schirrmeister表示:“在这个超连接和超可扩展性的时代,人们必须处理所有反映消费者行为的数据,必须对此做出反应,以尽可能提高效率。”“我们现在有能力做到这一点。”

不同种类的分解
数据中心中的分解对每个人来说并不意味着相同的事情,因为有多个驱动因素导致脱离“服务器即单元”模型。

其中一项工作是将网络从服务器的其余部分分离出来。“作为一种降低总拥有成本的方式,网络分解现在在云和企业数据中心都获得了吸引力,”该公司营销副总裁埃迪·拉米雷斯说手臂的基础设施业务。

这将专用的数据处理单元(dpu)放置在单板上,用于所有的网络功能,使cpu无需执行与通信相关的代码,从而可以集中精力处理实际的数据工作负载。

虽然这里的重点是数据中心,但在一定程度上,分解也发生在芯片级别。Ramirez说:“大型单片模具被重新设计为小芯片,以提高产量和降低成本。”“与此同时,专门的处理(分组处理、gpu、npu)正在与通用的芯片内核集成,并且也以芯片的形式集成。”

Co-packaging的高带宽内存(HBM)与cpu或其他加速器soc使内存和计算更紧密地结合在一起-与分解相反。在同一个包中添加其他类型的处理与分解完全相反。这是在最佳利用率和低延迟需求之间的权衡。

也就是说,分解在很大程度上是数据中心的现象。在边缘,更高级别的集成带来明显的好处。

降低数据中心刷新的成本
拆分数据中心中的服务器有两个主要动机。其中之一是更新或“刷新”服务器以引入新一代处理器和/或内存的成本。这种更新是需要相对频繁的。

但是一个完整的服务器刀片包含的远不止cpu和内存或其他芯片。它还包括风扇、冷却器和其他不需要更新的基础设施。如果更换整个服务器,那么所有的基础设施也必须更换,即使只有计算部分真正得到升级。

汗说:“关于这些不同的刀片,有很多白皮书,以及他们如何试图通过更换有CPU和内存的刀片来降低总拥有成本,而其他组件则保持不变,因为每个组件都有不同的生命周期。”

事实上,一些基础设施组件可能在几十年内都不需要更换。Renganathan说:“服务器平台的周期平均为4年。“如果你每次更新都要在基础设施上花钱,那是没有效率的。”

通过将计算从基础设施中分离出来,刷新的成本大大降低。完美的基础设施不会因为与过时的计算单元共用空间而被简单地扔掉。

作为计算单位的服务器
在传统的以cpu为中心的计算观点中,通过添加服务器来扩展是有意义的,因为它可以扩展计算能力。但是cpu不能独立运行。至少,它们需要内存、存储空间以及与其他内部或外部实体通信的方式。它们还可能得到其他计算资源的辅助,如gpu或其他专门建造的加速器。

“在每个服务器刀片上,都有一个CPU、一个内存、一个存储甚至一个GPU,”ibm的技术营销经理吉格什·帕特尔(Jigesh Patel)说Synopsys对此.“现在,一旦你选择了一个服务器刀片——假设应用程序只占用CPU,而不占用内存或GPU——资源就被浪费了。”

图1:多个服务器刀片的简化视图,每个服务器刀片都有一组指定的资源。资料来源:Bryon Moyer/Semiconductor Engineering

图1:多个服务器刀片的简化视图,每个服务器刀片都有一组指定的资源。资料来源:Bryon Moyer/Semiconductor Engineering

使用当前的服务器模型,提供灵活性的唯一方法是使用不同的资源混合使用不同的服务器刀片。但这可能会变得难以管理。例如,假设一个特定的服务器配备了一个四核CPU和16 GB RAM。如果一个特定的作业需要4个核心,但只有一半的内存,那么8gb的内存将被闲置。或者,让我们假设它需要24 GB的RAM,而没有具有该配置的服务器可用。这意味着两种情况之一——要么必须使用存储来保存访问频率较低的内容,降低性能,要么需要第二块刀片。

如果需要第二块刀片,它自带CPU。这个CPU要么什么都不做,只是管理对额外DRAM的访问,这是一种计算能力的浪费,要么需要对程序进行分区,以便在两个CPU上运行。后一种方法并不简单,根据应用程序的不同,甚至可能无法实现。

这些例子都显示了所需的计算能力和所需的内存之间的不匹配。其他资源也是如此。

从最纯粹的意义上讲,分解体系结构的思想是将服务器拆分,并将类似的资源与类似的资源共享。所以cpu归一个桶,内存归另一个桶,也许gpu归另一个桶。

“你完全可以想象重新构建一切,如果你有连接,可以让你以极高的速度几乎无限的距离,”詹姆斯·庞德(James Pond)说有限元分析软件.“你可能会把所有的cpu放在一个地方,把所有的内存放在另一个地方。”

其他人也指出了类似的趋势。帕特尔说:“人们正试图分解每一个(服务器元素)。“你不用选择服务器刀片,而是分别选择CPU、内存、硬盘和GPU,这样你就可以更有效地利用资源。”

在这种情况下,当应用程序启动时,将对需要哪些资源以及每种资源需要多少资源进行评估。这些资源将从各自的桶中分配,并组合到一个虚拟自定义服务器中。该服务器将拥有足够的资源来完成这项工作,将未使用的资源留给其他工作。

图2:在一个分解的体系结构中,不同的资源被集中在不同的“桶”中。给定的应用程序将有一个由必要的组件组成的处理平台。资料来源:Bryon Moyer/Semiconductor Engineering

图2:在一个分解的体系结构中,不同的资源被集中在不同的“桶”中。给定的应用程序将有一个由必要的组件组成的处理平台。资料来源:Bryon Moyer/Semiconductor Engineering

然而,要做到这一点,并不是简单地把东西从一个板移到另一个板。我们的大部分基础设施都假定采用基于服务器的方法,因此需要使用替代方案。

记忆是一个难题
内存访问理论上可以使用新的CXL协议,它允许聚合不同内存的不同池,同时抽象出它们的差异。这种分配并不局限于物理内存。内存芯片可以分区,这些分区可以分配为虚拟内存。

“这样你就不必为每台服务器购买最大数量的内存,”Steven Woo说Rambus.“你购买的东西是基于你对整个数据中心的期望。这允许您在每个服务器上拥有最少的内存量(用于最小大小的作业),然后从这个池中借用所需的内存量用于较大的作业。如果你做得对,这在经济上更有意义。”

Woo指出,它还允许以不同于服务器的时间表更换内存。他说:“所有这些技术的自然技术生命周期都是不同的,所以以不同的方式取代它们会很好。”“能够共享资源意味着您不必在更换cpu的同时更换磁盘或DRAM。你可以在最有意义的时候去做。”

这有助于解决访问比当前可用内存更大数量的内存的问题。“这是一个大小和速度的权衡,因为很多数据集往往非常大,”Khan说。“而且可以物理上靠近CPU的DRAM或存储级内存的数量是有限的。这就是推动这些东西出现的原因。”

最大的挑战是延迟。Cadence负责DDR、HBM、闪存/存储和MIPI IP产品营销的集团总监马克•格林伯格(Marc Greenberg)补充称:“我们看到市场对更多内存的需求。”“在某些时候,你确实需要足够接近的数据集。如果一切都是网络数据包,延迟将会杀死你。虽然你可以将cpu、加速器和内存可视化,但它们之间的距离有物理上的限制。”

然而,这引发了一个根本问题。“如果你把记忆放远一点,但你有更多的记忆,你现在是不是过得更好?”格林伯格问道。

内存池
这引发了关于如何将内存池分配到远离处理器的地方的讨论。像HBM这样的内存可以很近,而其他内存可以远得多,但它们仍然可以在一个层次结构中一起工作。“如果我把我所有的DDR内存放在一个大池中,我就可以拥有这个本地HBM内存,它更像一个缓存,”Woo说。“你可能每个机架都有一个游泳池,你可能每两个机架都有一个游泳池,因为这是你可以用铜互连服务它们的距离。如果你开始考虑更远的距离,你可能会开始考虑一种不同的互连技术。数据中心中的每一行或每几行可能都有一个池。它们都是有意义的,这取决于工作负载的实际情况。这就像金发姑娘的问题,你既不想让它太远,也不想让它太近。目前,该行业仍在研究和试验,看看他们到底想要多远。”

挑战在于在编程中隐藏这种层次结构。“对于更高级的用户来说,正确的机制将是必要的,允许他们将数据具体地放置在不同的层中,”Woo指出。“但也提供了一个抽象的模型,如果程序员不愿意,他们可能不必考虑它。”

在本周的OCP全球峰会上,有关于分层内存及其工作原理的重要讨论。还有很多工作要做,但这是一个需要大量投资的领域。

让远看起来像近
所有这些资源的连接都有一个巨大的要求:应用程序运行时发生的通信必须足够快,让人感觉与服务器的速度相当。一旦我们跟不上铜连接的速度,光连接显然是下一个步骤。但是,用光纤重建数据中心机架涉及到其他行业仍在研究的选择。

庞德说:“如果你在集成电路之间有光学互连,你现在得到的东西(信号)传播的距离真的不重要,可能有几百米。”“这将突然改变你对如何设计主板或数据中心的想法。”

“光子学要快得多,”Patel说。“对于如此短的距离,几乎没有任何延迟。”对于铜互连,“……你可能需要几个串行链路,你可以用一个光波导覆盖相同的数据。换句话说,分解将推动更多的光子连接。”

然而,需要注意的是,并不能保证光学技术能够提供长距离应用所需要的那种短跳加速。这是因为需要进行数据转换。

“你仍然需要把数据转换成其他东西,”格林伯格说。“使用SerDes,您可以将其转换为串行波形。在光学系统中,你把它转换成光。所以转换仍然需要延迟。”

在长距离上,与实际传输时间相比,转换时间将非常小。这就是更快的光学传输胜出的地方。

但在短距离上,传输时间在包括转换在内的整体通信时间中所占的比例会更小。考虑到光学的更高复杂性(或者至少是专业化程度的提高),这可能比仅仅加快串行铜链路的速度更难推销。

也就是说,从长远来看,带宽也将发挥作用,推动光子学的发展。“电子收发器无法处理800或1000 GB/s的数据,”Ansys电子和半导体业务部门主管Rich Goldman表示。“因此,进入光子学领域将成为一项要求。”

分散型数据中心不会一蹴而就
任何像这样的重大架构变化的主要挑战之一是,它不能要求剥离过去几十年建立起来的大量计算资源。而且,无论发生什么情况,互联网业务都不能在硬件大修的时候关闭。这意味着必须有一种方法来保持与当前默认体系结构的兼容性,同时根据新的体系结构增量地添加资源。

即便如此,新模式的出现仍需数年时间。Khan说:“等到IP解决方案出现在可用的soc中,当这些产品进入服务器和系统时,还需要很长时间。”

CXL是一个公认的标准,现在才看到其第一个版本的实现进入市场。CXL 2的实现还需要几年时间。其他分解和组合资源的标准化方法还没有最终确定,因此更多的分解还需要更长的时间。

“让这种做法切实可行有多现实?汗问。“这是系统人员必须展示的东西。然后,它在商业上可行吗?”

到目前为止,答案还不清楚。Synopsys的光子解决方案总监Twan Korthorst说:“这些都是被讨论和争论的架构。“与此同时,技术人员正试图构建所有这些单独的构建模块,以支持这些未来的架构。”

英特尔在一份白皮书中总结了其对分解机架的看法:“各种数据中心硬件资源,如计算模块、非易失性内存模块、硬盘(HDD)存储模块、FPGA模块和网络模块,可以单独安装在一个机架中。这些可以打包成刀片、滑道、机箱、抽屉或更大的物理配置……被管理的资源将至少有两个网络连接:一个高带宽数据连接(以太网或其他结构),以及一个独立的带外以太网连接到专用管理网络……一个机架可以连接到其他机架,组成一个称为“pod”的管理域。一旦组合完成,节点就可以配备裸金属堆栈(操作系统和应用程序代码)、KVM或VMware等虚拟机环境,或者Docker等容器环境。”

回报
考虑到计算分解的两个主要驱动因素——更简单的刷新和更优化的资源使用——只有一个具有明显的财务回报。更换计算单元,同时保留基础设施元素将减少更新所需的资本支出。

另一方面,优化计算资源利用不太可能直接节省成本。相反,投资回报来自更好地利用资源。与旧的架构相比,新的架构可以完成更多的工作。

如果计算负载需求是稳定的,那么数据中心可以缩小规模——或者可能会推迟新机架的建设,而更多地使用旧机架。但需求一点也不稳定,而且还在不断增加,没有明显的尽头。因此,数据中心经理们仍然可以通过一个更好的优化设置来做更多的事情,这很可能是值得做的,但这不太可能表现为资本或运营支出的直接减少。

在网络分解方面,既有玩家也有新玩家。Ramirez说:“在基础设施提供商的各个方面,分解都是必要的。“它对传统业务和运营模式更具破坏性,对新进入者更友好。然而,即使是现有的供应商也一直大力提倡将这些功能转移到网络优化资源中。”

最终,隔离任何类型的资源都是必要的,因为没有统一的最佳方式来做事。“永远不会有一种适合所有事情的最佳架构,”Khan说。“你不能设计一个完美的系统来进行基因组研究和商业交易处理,因为工作负载行为是不同的,峰值性能也是不同的。”

通过为每个应用程序不同地聚合资源,可以更接近最佳。

相关的
转向数据驱动的芯片架构
重新思考如何提高半导体的性能和降低功耗。
RISC-V针对数据中心
随着生态系统的成熟,开源架构在更复杂的设计中获得了一些吸引力。
系统设计将发生翻天覆地的变化
随着应用程序日益多样化,对更快处理的需求促使计算模型变得非常不同。
协同封装光学器件会取代可插拔器件吗?
新的选择为更快、更可靠的系统打开了大门。



1评论

杰奎琳Arsivaud 说:

感谢你出色地概述了解体的挑战和前景。有一个方面尚未被充分探索,IDC称之为“可组合分解基础设施”(CDI),这个词有点拗口,但描述的是将通常在服务器内部发现的资源(如加速器和存储)池化到扩展机箱或池化设备中,然后可以跨服务器共享,但也使服务器能够枚举比本机更多的资源(例如32个gpu到一个CPU),从而更快地获得结果。今天的另一种可能性是全PCIe机架,其中PCIe成为一个可路由的网络结构,以本机PCIe延迟和带宽连接节点和池设备,当然仍然使用以太网连接进行带外管理。GigaIO已经在TACC和其他地点安装了这样的系统。

留下回复


(注:此名称将公开显示)

Baidu