中文 英语

数据中心架构不断变化

处理器市场推动定制化多芯片系统,创造了动荡和新的机会;RISC-V既是催化剂,也是机遇。

受欢迎程度

数据中心架构正变得越来越个性化和异构化,从单一供应商生产的处理器转变为多个供应商生产的处理器和加速器的混合——包括系统公司自己的设计团队。

超大规模数据中心在过去5年左右的时间里,由于服务器供电和冷却机架的成本不断上升,需要更紧密的集成来处理AI/ML应用程序,以及需要处理的数据量大幅增加,它们一直在向日益异构的架构迁移。再加上各级边缘数据中心的建设,整个数据中心行业正在发生变化。

这有助于解释为什么过去拒绝向第三方IP开放其架构的英特尔正在转向更“民主化的芯片环境”。除了该公司愿意在其解决方案中包含Arm核心(以及已经存在多年的协议),英特尔现在还加入了RISC-V国际作为主要成员。

目前还不完全清楚事态会如何发展。一方面,它为更多定制化的处理元素和加速器打开了大门RISC-V这将首次将RISC-V设计引入数据中心——尽管在多大程度上还有待观察。但也许更深远的影响是,它为主要芯片供应商提供了更多的定制化服务,过去这些供应商依赖于摩尔定律的每一个新版本作为他们的竞争武器。

这种方法不再有效,苹果M1芯片就是明证。苹果在笔记本电脑和台式电脑上更换了英特尔(Intel)芯片,采用了内部设计的基于Arm核心的处理器,紧密集成了其原生软件,从而提高了性能,并将电池续航时间延长了五倍。据报道,苹果计划在未来几年内将其台式机和服务器换成基于arm的芯片。

Arm还进军了企业领域。“云计算在实现媒体消费、电子商务、远程学习、统一通信、IT服务、数字转型等现有应用程序方面发挥着关键作用,并将在推动机器学习、元宇宙、自动驾驶和智能物联网等新一类应用程序的成功方面发挥关键作用,”哈弗·帕里克(Dhaval Parikh)表示手臂该公司的基础设施业务。

Parikh指出,为了满足现有应用程序以及云计算支持的新应用程序不断增长的需求,超大规模和云服务提供商正在寻求用专门构建的异构基础设施重新构建下一代数据中心。

这就是竞争变得激烈的地方。虽然RISC-V不太可能在短时间内取代主要的处理元素,但它为定制增加了另一种选择,而且几年前人们就预计它将开始渗透到数据中心。英特尔的举动只会加速这种转变。英特尔代工服务公司本月早些时候表示,他们正在与安第斯技术公司、Esperanto技术公司、SiFive公司和Ventana微系统公司合作,以确保RISC-V在英特尔代工芯片上运行得最好,并加快上市时间。

“目前每个人似乎都集中在RISC-V带来的两个主要优势上——它是一个开源ISA,并且没有授权费用,”ibm的研究员Gajinder Panesar说西门子EDA.首先,开放式ISA仅用于CPU。但这与CPU无关。这是系统的问题。你仍然需要把它放在一个SoC中,这个SoC需要放在一个盒子里,数据机架里,等等。所以即使你开发了一个CPU核心,这也不是它的结束。不支付授权费用,这是可以的,特别是如果你是一家初创公司,因为授权费用可能会相当严重。你靠风投的钱勉强糊口。但对于这个市场的大玩家来说,与实际制造芯片的成本相比,授权费用显得微不足道。然后是开发芯片的成本,从设计、实现、验证、验证到制造。 You’ll be lucky to have some change left, especially with chips that are on the bleeding-edge technology. The fact that you saved yourself $2 million or $3 million on a license is neither here nor there when you’re paying around $80 million to $100 million to get a chip made, and you might have to re-spin because you’ve screwed up. Developing a chip based on an open-source ISA is one thing. You can compensate and come up with a special deal from the EDA tool providers, but you’ve still got to make the whole thing work. You’ve still got to put in the software stack, commit the OS, the security layers. If you’ve got security, then you need to have it audited. All those costs add up.”

让碎片一起工作
在幕后,处理器世界向越来越多的异构性的转变引发了一场大规模的争夺。适应和支持异构集成的生态系统仍在构建中,并且在可预见的将来可能还在构建中。对设计团队来说,从10亿单元处理器到可以在更小的生产过程中集成各种芯片的定制设计的转变仍然是一个巨大的挑战。

“如果处理器的选择是你唯一的挑战,那么人们真的会坚定地选择它,”微软解决方案和生态系统高级集团总监Frank Schirrmeister说节奏.“但当你试图从RISC-V的角度构建自定义的东西时,你需要应对很多挑战,从选择正确的IP,通过硬件或软件的验证,到在IP的背景下选择正确的软件,以及所有潜在的3D-IC集成挑战。然后,验证所有这些,把它放在板上,确保有足够的气流,不会烧毁数据中心的其他部分-当您做出这些决定时,不缺乏挑战。架构的选择其实只是其中之一。这就是为什么你要通过这个过程来考虑什么能让你的生活更容易,也要确保如果事情出了问题,不全是你的错。坦率地说,这种情况对系统设计师来说是一种挑战。”

图1:同质和异质模堆显示逻辑上的内存。来源:节奏

图1:同质和异质模堆显示逻辑上的内存。来源:节奏

对于EDA供应商来说,特别有趣的是能够深入系统和大型处理器公司,可能会使用RISC-V作为入口点。“这是一个巨大的机会,因为它是开源的,但开发成本仍然很高,”微软的数字设计工程师Natalija Colic说Vtool.“这是一个高度可定制的处理器,验证也需要遵循这一趋势。RISC-V在服务器集群等领域大放光彩的时机可能已经到来,但仍必须努力使这个ISA成为一个有效的竞争对手。”

她说,围绕RISC-V的热议在其他方面也是积极的。例如,这种趋势可能会迫使长期处于垄断地位的Arm在其一些传统产品中加入RISC-V。由于英特尔、谷歌和Arm都在投资RISC-V,这肯定会影响市场,不仅对拥有RISC-V形式加速器的集群,而且对更小的嵌入式芯片也会产生影响,就像我们在Vtool中所做的那样。”

市场的变化是慢动作
当然,这一切都不会在一夜之间发生。历史上,数据中心在变化方面一直很保守,而EDA工具的开发需要时间。但是数据中心领域的竞争非常激烈,异构架构的推出标志着一个拐点。

英特尔首席营销官Rupert Baines表示:“我们看到人工智能处理器开始使用具有不同定制、增强和扩展级别的RISC-V。Codasip他指出,到目前为止,RISC-V的成功仅限于人工智能、加速器以及来自Esperanto、Mythic等语言的特定功能组件。“你看到的是深度嵌入式应用。英伟达多年来一直将RISC-V用于小黄核和控制器核——不是用于实际的GPU功能或AI功能,而是用于其他所有功能。因此,我们看到RISC-V正在以多种方式稳定地应用于数据中心,但还没有用于重型英特尔至强应用级处理器。这仍然是英特尔,在一定程度上是AMD, Arm刚刚进入市场。英伟达、安培、Marvell等拥有Arm产品的公司正在进入这一领域,而RISC-V还没有进入。但它会好的。”

事实上,Baines预测,基于RISC-V ISA的主流数据中心应用处理器核心可能在短短三到四年内变得更加普遍。

在这一点上,真正的价值可能更多的是各种组件的集成,而不是一个供应商拥有一切。分解在纸上很简单。将各种部件重新聚合成一个安全、高效、可靠的设备要困难得多,而像英特尔和AMD这样的大型芯片制造商一直在争先恐后地使用芯片/瓦片类型的方法将所有部件组装在一起。像台积电这样的晶圆代工厂也一直在研究这种方法,使用混合键合来加快芯片之间的数据流动。

带碎片的花冠。来源:节奏

图2所示。有碎片的花饰。来源:节奏

RFIC包协同设计——Cadence

图3所示。RFIC包协同设计。来源:节奏IC封装3D-IC。来源:节奏

图4所示。IC封装3D-IC。来源:节奏

这就解释了在处理器领域不断发布公告和不断重新定位的原因。业内消息人士称,Arm最近开始与初创公司就更灵活的许可条款展开合作。这可以帮助节省时间和精力。

Vtool的项目经理Olivera Stojanovic说:“如果Arm真的适合你的项目,你应该选择Arm,因为它已经经过测试,具有你需要的所有功能,等等。”“但如果你需要更具体的东西,那么RISC-V可能是选择。但请记住,这是一个巨大的努力来验证检查CPU的功能。你需要进行验证过程,以确保这个基于isa的开源CPU得到了完全验证。”

潜在的力量
虽然RISC-V确实引起了很多人的兴趣,但它的成功可能不是由于它能够推动数据中心发生巨大变化,而是由于市场的一些更广泛的变化。

Cadence的Schirrmeister说:“消费者的需求正在推动数据中心架构开发人员相应地改变架构,以支持正确的工作负载。”“这就是它如何流下来的。“现在我知道了所有这些,消费者想要他们的见解,数据中心提供商需要针对特定工作负载集的解决方案,我如何从底层处理器最好地实现这些?”这就是为什么RISC-V本身不是RISC-V。现在你有一大堆的决定要做——与世界其他地方的接口。那么支持哪些公共汽车,每个人都有自己的小变化?我能很好地展开它吗?我能很好地延伸吗?它满足了它的要求吗?”

在这种情况下,RISC-V可能只是众多选择之一。他说:“如果我是一名系统架构师,我将基于RISC-V核心的芯片进行集成,现在我必须弄清楚是否有软件支持。”“此外,我的风险偏好也受到了质疑。如果出了问题,我可以把风险推卸给别人,还是自己承担?这是一个需要克服的障碍。如果你已经搞清楚了这一点,如果软件支持在那里,如果你对潜在的RISC-V推手带来的风险感到放心,那么在你必须做出的所有50个决定中,RISC-V的选择发挥了作用。但这是一套复杂的考虑,因为其他人都有非常令人信服的论点和参考设计等等。”

不确定的未来
那么像RISC-V这样的ISA会随着时间的推移影响数据中心架构吗?Codasip的贝恩斯相信会的。

贝恩斯说:“其中一个原因是谁在控制事情,谁在做决定。”“如果你是谷歌或Facebook用户,硬件供应商就是你,在过去5年或10年里,每个谷歌数据中心都充满了按照谷歌规格设计的谷歌服务器。渐渐地,这些人——谷歌、facebook、微软——不仅指定了他们自己的硬件,他们也指定了他们自己的芯片。这样,他们就能从上到下控制整个堆栈。因此,如果他们愿意,他们将指定编程语言。也许他们使用Swift或Objective C或GO。它可能与世界上其他地方使用的不同,他们并不真正关心。他们有自己的工具链,如果他们要切换到不同的ISA,这将在他们自己的控制之下,他们可以做到这一点。如果他们能看到优势,他们就会这么做。这又回到了功能性计算和特定于领域的计算的思想。 If you’re vertically integrated, and you control the software and the silicon, then it makes an awful lot of sense to invest in functional-compute, heterogeneous-compute, domain-specific architectures, which means you need control of the architecture. You cannot rely on an arm’s-length third-party supplier.”

Google- tpu为谷歌云在热芯片2019l=1

图5:2019年热芯片大会谷歌云的谷歌TPU。来源:半导体工程/ Susan Rambo

与此同时,计算架构也在不断地被这些公司重新评估。“当我们审视当今系统的架构时,它应该是关于系统的,而不是关于cpu的,”西门子的Panesar说。“人们谈论高端cpu以及如何做这个、那个以及其他事情。但实际上,你需要把它放在应用程序的上下文中。我很失望,因为几乎没有创新。如果你刮掉RISC-V,在上面贴上Arm的标签,你根本看不出来。除了32位或64位处理器之外,没有任何区别。我们失去了一个机会,因为我们可以做更多的事情,以一种比现在更戏剧性的方式来改变架构。特定于领域的体系结构、内存计算——这些概念在主流中并不存在。也许有一些利基市场正在关注这一点,但未来的创新将来自于打破现有的做事方式。 For instance, having a cache-based system is the same architecture as it was when I started out in this industry a very long time ago, except they’ve got a new buzz buzzwords or acronyms. But it’s more or less the same. I’m not a great believer in things like caches and coherency because that’s a paradigm that people have hung onto and they’re putting Band-aids on for new applications. The reason I’m disappointed is that there’s an opportunity lost here.”

一段时间以来,在数据中心中应用更多领域特定的体系结构的争论已经出现。

Panesar说:“如今的数据中心往往非常通用,一刀切。”“你要么向那些不想要所有东西的人征税,要么没有为应用程序提供连贯、适当优化的解决方案,实际上无法有效地服务其他潜在客户。我们需要退一步问问目标是什么。我们的目标是为21世纪提供创新和产品,解决我们在21世纪想要的问题或东西,而不仅仅是采用现有的东西,并对其进行改进。有机会将一些可以修改的东西(通常是ISA)放入特定的或特定于领域的系统中。这就是创新的来源。它不会来自于你的CPU设计得有多好。这是系统的问题。为了实现这一点,需要有一个机会,让所有的cpu看起来都不一样。”



留下回复


(注:此名称将公开显示)

Baidu