中文 英语

服务器变得越来越异构

今天的服务器有一个或两个x86芯片,或者可能是一个Arm处理器。在5年或10年的时间里,他们将拥有更多的特色。

受欢迎程度

服务器中的cpu数量在增长,制造这些处理器的供应商数量也在增长。

CPU服务器的构建是一个、两个、四个,有时更多的x86处理器,IBM的Power和Z系列是主要的例外。虽然x86处理器不一定会被取代,但它们正在被新的处理器设计所补充和增强,用于各种更专门的任务。

在最近的超级计算机500强榜单中,有140台超级计算机使用了英伟达GPU协同处理器,而且这个数字只会增长。在未来5到10年内,通用服务器将配备x86处理器、gpu、fpga、Arm核心、AI协处理器、5G调制解调器和网络加速器。

当涉及到应用程序处理时,这是认识到一种尺寸不适合所有人。终端市场正在分裂,所有这些市场都需要定制化的解决方案。因此,计算的未来——特别是在服务器端——是异构的。

TECHnalysis Research总裁兼首席分析师鲍勃·奥唐纳(Bob O 'Donnell)表示:“人们发现,不同的芯片架构更适合不同类型的工作负载。”“由于工作负载的多样化将继续下去,对多样化计算的需求也将继续下去。还会有其他必要的筹码。这并不意味着cpu将会消失,但其他类型的芯片将会有更多的种类。接下来最大的问题就是如何将包装相互连接起来。”

英特尔通过其XPU项目在这方面采取了积极的姿态,该项目将CPU、GPU(通过其新的Xe GPU)、Altera的FPGA和AI处理器结合在一起,并通过API将它们统一起来。XPU数据中心产品和解决方案副总裁兼总经理Jeff McVeigh说:“我不认为未来会有一个单一的答案英特尔.“但它们的范围会很广,从紧密集成的单片到集成的多芯片包,再到系统级连接。”

英伟达(Nvidia)企业计算部门主管马努韦•达斯(Manuvir Das)表示,新的数据类型推动了对不同计算架构的需求。“每家公司都有越来越多的数据可供使用。公司也越来越愿意收集越来越多的数据。这样做的原因是他们现在可以看到他们可以从他们的数据中获得价值。”

半导体产业经历了相当大的变化并购活动近几个月来,随着企业通过收购而非有机增长实现产品多元化。

  • 英伟达,一家多年未进行大规模收购的公司,突然打开支票簿,以70亿美元收购SmartNIC制造商Mellanox,以400亿美元收购ARM Holdings。
  • AMD提出以350亿美元收购Xilinx,这是其多年来的首次重大收购行动。
  • Marvell Technology以60亿美元收购了Arm服务器芯片制造商Cavium,以100亿美元收购了网络半导体制造商Inphi。
  • Analog Devices签署协议,以210亿美元收购Maxim Integrated产品。

O 'Donnell说:“他们正在多元化,因为他们都意识到他们必须拥有各种不同的芯片架构。”“最难的部分将是英特尔试图用一个API做的事情,也就是,‘我如何采用这些不同的架构,让人们可以使用它们?每种架构都需要不同的指令集、不同的编程方式、不同类型的编译器等等。”

一块还是多块?
接下来的问题是,主板上会有一大块硅,还是每个芯片组有多个插座?这并不是什么新想法。片上系统已经存在很多年了。但soc正在发生变化。

SoC设计通常会精简处理器,尤其是GPU,以使所有这些芯片都适合一个合理的热包。单是具有完整CPU、GPU和FPGA的SoC的TDP大约为700瓦,这对任何人来说都完全没有吸引力。如果要进行封装设计,它可能会是按比例缩小的处理器。

“AMD在业界做了一些伟大的工作来证明这一点chipletCPU内核和I/O芯片可以封装。如果你想要一些更强大的东西,你可以构建整个芯片,你知道,一个可能是CPU核心,一个是神经网络引擎,也许一个是GPU,你可以把它们放在同一个包上,”Steven Woo说,系统和解决方案副总裁和杰出的发明家Rambus

英特尔(Intel)的麦克维(McVeigh)可以选择多封装设计。“在内存带宽方面,单一封装设计显然有好处,但每种封装的容量也有限制。所以我不认为未来会有一个单一的答案。但将有广泛的选择,从紧密集成,单片到多芯片封装集成到系统级连接,”他说。

英伟达也对多芯片封装的想法持开放态度,尽管它的愿景与英特尔类似。它提供所有的硅。Das指出,英伟达已经有了Tegra形式的Arm/GeForce SoC,以及新的Bluefield 2系列数据处理单元(dpu),将Mellanox ConnectX-6网络控制器与Arm cpu和安培gpu相结合。在英伟达的路线图中,2022年的BlueField 4将把所有三个cpu都放在一块硅片上。

他说:“如果你只考虑三年后的计算量,五年后的计算量,如果你不这样做,世界将无法负担。所以会有多种形式因素。当你接近边缘时,它会更倾向于综合解决方案。”Das说。

但这是英特尔和英伟达把自己所有的知识产权打包到一块硅片里。两家或多家公司合作的前景——比如美满电子(Marvell)和AMD——令人怀疑。

超微负责FAE和业务发展的高级副总裁维克•马拉(Vik Malyala)表示:“这将很困难。“为什么英特尔或AMD要向英伟达开放他们所有的处理器架构?英伟达的情况也是如此。为什么英伟达要开放所有与他们的GPU相关的东西来与别人合作?他们试图收购Arm是有原因的。”

艾迪·拉米雷斯,公司基础设施业务部门的高级营销总监手臂他说,多厂商芯片有先例。“如果你回顾10年前,我们几乎还处于将设计与制造分离的起步阶段。对于现在的soc来说,这是司空见惯的。所以在你所谈论的时间框架内,在5到10年内,生态系统将发展到可以使用不同供应商的硅来构建FCM。”

然而,他质疑这是否是一个好主意,因为不同的芯片有不同的寿命。“拥有一台带有PCI卡的服务器是一回事,你可以更换卡。但当它们在一个包里时,你必须立刻更换所有的东西。这对不同的生命周期有效吗?这是这里有趣的部分,”他补充道。

Malyala还指出,芯片供应商为不同的性能场景提供多种芯片,将一堆芯片放在一个封装中限制了客户的选择。他说:“比如说,如果我是Xilinx,我有十几个不同的FPGA。但如果我把一个FPGA放在一块给定的硅片上,我就会说它就是这样的,即使我配置过多或不足,我也会坚持这样做。”

CXL方程
当前针对服务器中非cpu处理器的解决方案是PCI Express卡。gpu, ssd, fpga和其他协处理器占用了一个作为PCIe而一个服务器的存储卡空间是有限的,尤其是超薄的1U和2U设计。

PCIe也有作为点对点通信协议的限制。的计算快通(CXL)协议作为PCIe的替代品正在迅速获得接受,因为它可以与PCIe以及其他自动协商事务协议一起工作。

麦克维说:“当我们进入这些更复杂的架构时,真正需要的是可以支持点对点通信的各种拓扑结构,以及扩展这些拓扑结构的能力。”“PCI Express本身并不能解决所有这些问题。但如果你想从现有的设计中升级,如果你有单独的卡片,可能不需要完全的相互连接,那么它就非常适合。”

一个很大的加分项CXL它通过快速连接使加速器更接近处理器,更重要的是,它使内存连接到系统内存的加速器部分,而不是私有的设备内存。这降低了系统内存的负载,减少了必须移动的数据量,因为设备内存(如GPU)中的数据很容易可见,而无需在系统内存之间来回移动。

无论多个处理器是在单个芯片上还是在多个芯片上,它们都必须以某种方式连接在一起,CXL被视为连接它们的网格。PCIe有它的用途,但它是点对点协议,而不是像CXL那样的网格。此外,CXL允许处理器共享内存,这是PCIe所不能做到的。

“CXL绝对是非常可信的,”Rambus的Woo说。“如果整个行业真的围绕着它聚集起来,那将是一种新型互连发展的垫脚石,我们将更多地围绕节点之间的连接进行优化,然后可能将处理器连接到内存和分解场景,甚至可能将处理器连接到gpu和存储等设备。”

Ramirez说,CXL的一个例子是在PCIe的不同端点之间进行一致的内存访问。如果您试图在一个加速器上进行一定数量的计算,并且它需要与其他加速器对话,那么它们应该能够直接对话,而不是使用hub-and-spoke模型,在这种模型中,所有东西都必须到一个点进行协调。“PCI Express本身并没有这种能力,”拉米雷斯说。

有可能会出现一种全新的标准,其基础是PCIe的良好部分,而忽略了不需要的部分。Woo指出,当两个PCI Express设备第一次开始相互通信时,它们使用PCIe Gen 1进行协商,然后逐步升级到连续几代,直到找到它们可以通信的最高速度。

“整个初始化序列有点麻烦,”Woo说。“如果你从硅设计师的角度来考虑这个问题,你会说,‘等一下,我必须把所有这些门都放进去,它们会被用来弄清楚我可以更快地说话——我不会再使用那些晶体管了。制定这种简单的协议有一种美妙之处。作为一名硅设计师,我宁愿把这些门用在别的地方。”

一个API来管理它们
没有软件的硬件只是一堆金属,所以这些努力背后的真正问题是如何将它们结合在一起。英特尔的oneAPI程序提供了最完整的解决方案。oneAPI为计算和数据密集型领域提供库,如深度学习、科学计算、视频分析和媒体处理。

oneAPI与用C、c++、Fortran和Python编写的代码以及MPI和OpenMP等标准进行互操作。它还有一组编译器、性能库、分析和调试工具,以及一个兼容性工具,可以帮助将用CUDA编写的代码迁移到Data Parallel c++ (DPC++),这是一种建立在c++和Khronos SYCL标准之上的开放的跨架构语言。

dpc++扩展了这些标准,并提供了明确的并行结构和卸载接口,以支持一系列计算体系结构和处理器。当然,它支持英特尔,但麦克维表示,他希望其他芯片公司也能采用它。

McVeigh说:“我们把它看作是一个行业创举——用统一的编程模型把这些异构的架构粘合在一起。”“我们把它作为真正将这些架构联系在一起的关键元素,这样你就有办法用一种通用语言来编程,一套通用的库,适用于操作系统供应商的解决方案,而不仅仅是英特尔的产品。”

O 'Donnell相信软件解决方案将会是全面的,从BIOS和驱动程序供应商到Linux发行版,如Red Hat Enterprise Linux和Canonical的Ubuntu。“这是一个如此多层的堆栈,”他说。“就像现在一样,这是全面的。我不认为你会看到一个解点。这其中涉及的内容太多了。”

结论
服务器行业需要更多的证据来证明异构计算的有效性。但这不是一个寻找市场的解决方案。许多市场已经存在,随着边缘技术的推出,新的市场正在开发中。改变的是,解决方案是为他们量身定制的,而不是终端市场适应现有的最好的现成技术。

“从概念上讲,我们需要不同的芯片架构是有道理的,”O 'Donnell说。“我们需要一个单一的软件平台来利用它们,但它需要神奇地做到这一点,通过硬件抽象层和其他一切。”

当人们开始使用多芯片架构时,我们会开始看到它以他们期望的方式工作吗?我们是否获得了人们期望的性能收益?它是否具有成本效益?这在现实世界中是如何运作的呢?

他说:“在理论之外,还有待观察。”“我们将不得不在多个层面上看到这一点。英特尔将推动它,但你会看到其他公司也在努力推动它。”

相关的
新的架构,更快的芯片
大规模的创新驱动性能的数量级改进。
数据中心数据过载
哪些体系结构和接口最适合不同的应用程序。
2020年顶级科技视频
2020年工程师们在关注什么。



1评论

Jayn 说:

您是否见过任何关于具有CXL从机能力的cpu的讨论。这将使偏向性的一致性成为可能,并且有可能在没有对称一致性开销和套接字限制的情况下增加CPU协处理器的数量。

留下回复


(注:此名称将公开显示)

Baidu