中文 英语

哪种芯片互连协议更好?

表1专家:CXL和CCIX是不同的,但并不总是清楚哪个是最好的选择。

受欢迎程度

半导体工程公司坐下来讨论计算快线的利弊(CXL)和加速器的高速缓存相干互连(CCIX的营销副总裁库尔特•舒勒Arteris IP;Richard Solomon, PCI Express控制器IP的技术营销经理Synopsys对此;以及Astera Labs的首席执行官Jitendra Mohan。以下是那次谈话的节选。(第二部分是在这里


左-右:Kurt Shuler, Richard Solomon, Jitendra Mohan

SE:与CCIX相比,你认为CXL在哪里发挥作用?

舒勒: CXL客户主要将其视为x86服务器芯片的配套芯片。从前后交流的一致性角度来看,它实际上比CCIX更简单。

SE:这原本是一个英特尔的发明,对吗?

舒勒:正确。它是一种简单的方法,或更容易与至强进行更紧密的耦合,亚马逊或微软或其他一些公司使用它来做基于fpga的或定制的asic。所以人们对此很感兴趣。每个人都在问:‘你听到什么消息了吗?你的客户在做什么?每个人都在周围转来转去,试图弄清楚其他人在做什么。CCIX略有不同。这个想法是,你有一个或多个芯片,它们都是一个缓存连贯系统。因此,在CXL的情况下,一致性全部在至强端进行管理,而配套芯片始终是一个从芯片。与CCIX不同。 So if you do the bi-directional coherency, which is what people are interested in, it’s one big cache-coherent system. When you get on the digital controller side, you have to duplicate snoop filters and some of the coherency logic to be able to understand what has happened on the other dies that are attached to it. CCIX is more complex from a digital logic standpoint than CXL. Some large chip companies have used CCIX, but I’m not sure how widely it’s been adopted.

所罗门: CCIX是完全对称的,如果你试图将它用作套接字到套接字的接口,它有一些明确的优势。所以如果你想把多个cpu放在一起,你就必须有一个完全对称的接口。对于加速器来说,可能就没那么重要了。这取决于工作负载和正在进行的加速类型,以及是否关心对称缓存一致性。在CCIX,人人平等。对于CXL,我总是把它描述为,‘嘿,爸爸,能把车钥匙给我吗?他说:“爸爸要处理所有关于转变的连贯性问题。他说,‘好了,这是密钥,现在你可以不受约束地访问你的内存,主机内存等等。这绝对是一种更简单的方法。很多加速器的人不需要完全对称的相干性。一个有趣的分支是在完全对称相干的情况下,如果我搞砸了加速器,系统就会下降。 With asymmetric coherency, if I mess up, the rest of the system isn’t necessarily corrupted. If I foul up a symmetric coherency protocol, really bad things happen. Another difference is that when they developed CXL, there was a huge focus on low latency. In simulation we’re seeing latencies that are a fifth or a tenth of what we’re seeing in other places, and that’s really been a compelling story for CXL, along with the simplicity. There are still plenty of people looking at CCIX and using CCIX, and it sounds as if the CCIX Consortium is going to go after improving latency. If you think back to when CCIX first came out, its real strength was being built on top of PCI Express. That was what made it easy for everybody to implement. All these transaction layers were already there. You really just added coherency kind of on top, and bam, away you went. But that hasn’t paid off well in the latency area, which means that the socket folks got more latency than they really wanted. Even some of the accelerator folks are saying, ‘We like the latency of CXL, couldn’t you guys do something like that?’ CXL has really been a big kick for CCIX. And clearly CCIX helped CXL to come out. So they’re improving each other just by being out there.

Jitendra: CXL最初是英特尔的发明,这实际上是CXL生态系统发展如此迅速的关键原因。CCIX已经存在了一段时间,OpenCAPI和NVLink也是如此。所有这些标准都试图解决一致性和延迟的挑战。然而,除了NVLink (Nvidia支持并采用)之外,其他标准并没有被广泛采用,这主要是因为没有大型CPU供应商参与并大规模采用它们。相比之下,英特尔构建了该规范的初始版本,并将其包含在下一代cpu中,从早期阶段就与领先公司合作,最终开源了CXL。我很清楚,CXL将成为主要的缓存一致、低延迟的服务器互连。

SE:是否有特定的市场,或者特定的架构?所以如果你在做一个人工智能芯片,你会明显地使用哪一个吗?

所罗门:不一定。对于AI芯片上的芯片对芯片,您可能需要CCIX的对称一致性。也会有一些指令集架构划分。特定指令集将使用特定版本。我认为CXL做得对的一件事是它完全与指令集无关。每个人都说它是英特尔对CCIX的回应,但你不必使用x86指令集。对于CXL,你可以用手臂指令集,甚至摩托罗拉68,000指令。它非常不可知论。这两个协议都努力使自己不局限于特定的体系结构。

舒勒:这两种协议都是基于这样的假设,即它们将位于插入墙壁的设备中的芯片中,并且已经有PCIe在上面,所以让我们在物理层和一些传输层之上。这是一方面。我们所看到的是,对于那些从事边缘AI设备或汽车的人来说——有重叠,因为大多数最近的汽车ADAS架构都是AI,而且有一堆推理的东西并行进行——延迟问题是一个巨大的问题。这些芯片通常没有在板上设计PCIe,所以他们正在寻找替代品。后来出现了XSR,超短到达标准。Synopsys, Cadence和AlphaWave都有SerDes。人们在问,‘如果延迟足够低,我们能否用两种不同的芯片创建我们自己的缓存一致性系统,并在其他用例中使用它而不是CCIX和CXL ?这是我们现在正在与客户解决的问题。他们中的一些人从其他人那里获得XSR SerDes的许可,一些人自己开发XSR SerDes。那么现在,你如何从数字逻辑的角度来做PHY适配层,从而不必为每个客户做定制工作?

Jitendra: CXL的一个非常重要的应用是实现一个真正的可组合服务器。可组合的服务器架构基于资源分解,您可以使用软件配置资源的数量。这个概念已经存在多年了,但从来没有一个真正好的互连解决方案能够提供所需的吞吐量和低延迟。通过基于cxl的硬件,云服务提供商可以使用单个服务器配置,为需要不同数量内存、AI加速、gpu和网络功能的特定工作负载定制多个虚拟实例。

SE:这两种协议是否都包含在设计中,或者是其中一种?

所罗门我们经常被问到这个问题。对于CPU供应商来说,这是一个吸引力,因为你希望能够在多个市场中发挥作用。也许有些人需要对称一致性协议,有些人不需要,从IP的角度来看,两者都包含并不痛苦。困难的部分在客户端,他们必须在SoC内部实现一致性协议。一旦客户看到这一点,就没有人选择两者兼得。有几个中央处理器的人正往那边去。他们已经有了一系列的CCIX承诺,但他们也在关注CXL,他们说,‘采用这种技术的速度比我们以前见过的任何事情都要快。所以有些人试图两者兼得。但典型的实现是两者之一。

舒勒二选一。系统供应商和超大规模计算公司已经在他们的数据中心安装了xeon。现在他们正在添加加速器芯片和像PCIe卡这样的东西。还有一些人是白手起家的。这包括中国的公司和美国的研究人员,以及一些超级规模的人。这些系统中没有x86芯片,或者至少在大数据中心的系统中没有x86芯片。这些人对CCIX感到兴奋,并能够在一个包中创建可扩展的多芯片架构。其中一些人工智能芯片有无数个Arm核心和某种可复制的处理元素。它们通常装在某种网状的,十字线大小的芯片里。这些人对CCIX很感兴趣。

相关的
CCIX和CXL之间的选择
第2部分:适合一个设计的方法不一定适合另一个设计。这是为什么。
CXL Vs. CCIX
如何计算快速链路与加速器的缓存相干互连比较。
CXL新标准
计算快速链路标准,为什么它对AI/ML应用程序的高带宽很重要,它来自哪里,以及如何在当前和未来的设计中应用它。
CXL而且CCIX知识中心
关于CXL和CCIX的头条新闻、白皮书、视频和博客



留下回复


(注:此名称将公开显示)

Baidu