中文 英语

RISC-V为超级计算做好准备了吗?

业界似乎认为这是开放指令集架构的真正目标。

受欢迎程度

RISC-V处理器,直到几年前还被认为是特定功能的辅助处理器,似乎正在获得对一种完全不同类型的角色的支持——高性能计算。

这还在讨论阶段。关于软件生态系统的问题依然存在,或者说芯片、电路板和系统是否足够可靠。这里既有业务问题,也有技术问题,其中业务问题是最困难的。但这说明了RISC-V架构,由于其开放的ISA,已经看到了大规模的采用和实验。这反过来又给了该行业创新的自由。

“ISA(指令集架构)本身并不是那么吸引人,”微软的首席营销官Rupert Baines说Codasip.“关键是你围绕它做了什么。因此,围绕安全和发布最佳实践、指南和参考架构的工作组非常重要。Open Titan是信任的开源根源,它很重要,因为它是一个做得很好的参考架构。人们可以看着它,而不是重新发明轮子,可能会犯错误。”

现在最大的问题是,这种架构能在新的方向上推进多远。芯片行业已经坚定地进入了特定领域计算的时代,在这个时代,处理器可以高度针对特定任务进行定制,然后在这些任务上胜过其他固定架构。但如果软件需要针对这些定制核心进行优化,这也会使软件移植变得更加困难。

对于RISC-V来说,高性能计算和超级计算可能代表着一个巨大的飞跃。超级计算机被定义为与通用计算机相比具有高水平性能的计算机。它们通常是带有向量扩展的浮点计算机,目前的领先者Frontier能够在LINPACK基准上以大约1.1 exaFLOPs的速度运行。它有8,730,112个基于x86 ISA的处理核。

尽管如此,随着其他替代方案的广泛普及,对此类庞然大物的需求也在不断演变。高性能计算机过去是一种定制设计的通用计算机。如今,部署高速服务器集群(在本地或云中托管)的每个人都可以使用非常类似的功能。

RISC-V在这里是否有可能发挥作用,需要从许多不同的角度来考察。谁可能需要基于RISC-V架构的超级计算机,谁又愿意为此买单?RISC-V ISA和扩展是否具备创建超级计算机所需的所有功能?有人创建了一个性能合适的核心吗?所有必要的软件都到位了吗?

追随Arm的脚步
直到最近,大多数超级计算机都是基于英特尔的x86架构。Arm希望提高其在高性能计算领域的渗透,并在2016年左右准备好了基本的硬件支持。

“当第一个Arm超级计算机程序被启动时,Arm还没有准备好,因为所有的生态系统都在那里,或者所有的问题都已经解决了,”研究人员罗伯·艾特肯(Rob Aitken)说Synopsys对此的家伙。“更重要的是,有人在某个地方说,它已经足够近了,我愿意冒这个险。我愿意试试。我想说的是,RISC-V要么已经达到了,要么非常接近于有人愿意赌一把,为超级计算机开发一些东西的临界点。”

2020年6月22日,由富士通48核A64FX SoC驱动的日本Fugaku超级计算机成为第一台由arm驱动的超级计算机,至少暂时成为世界上最快的计算机。最强大的高性能计算机的列表可以在排行列表。

性能不是唯一的考虑因素。“要成为一个成功的HPC处理器,需要在提供性能、效率和安全性的同时,支持应用程序生态系统和重要的前沿服务器标准,”David Lecomber说,他是惠普的HPC和工具高级总监手臂的基础设施业务线。“当涉及到设计灵活性时,重要的是在最适合开发人员的地方提供这种灵活性。例如,稳定和一致的ISA对于商业HPC开发人员至关重要,但在您自己选择的内存子系统(DDR5、HBM、cxl附加)或加速器(on-die或PCIe/ cxl附加)中进行设计的灵活性非常强大。”

最快是什么意思?
在过去的几年里,行业的绩效指标一直在变化。虽然绝对的性能仍然是至高无上的,但系统往往受到功率的限制,这导致架构为特定的任务进行了优化。但这也引发了如何衡量性能的问题,因为没有机器可能在每项任务上都是最快的。

多年来,业界一直在使用LINPACK基准,但这正变得越来越有争议,无法提供简单的答案。一种方法是扩展基准测试,这被称为HPC Challenge基准测试套件。发起人之一,田纳西大学计算机科学教授Jack Dongarra(广泛的生物是在这里),已受美国政府委托开展这项工作。但是解决一个问题会产生另一个问题。该基准不再产生单个数字,这使得比较变得困难。

由于其他原因,业绩很难衡量。吞吐量和延迟通常是相互对立的,这并不局限于超级计算机。因此,一个系统可能能够更快地生成一个答案,但另一个系统可以在更短的时间内生成一系列答案,即使您必须等待第一个答案稍长一些。

随着应用程序现在能够在商业云上扩展到超过100万个内核,构建一个适合大小的HPC不再是问题。现在是得出结果的时候了,对于那些需要尽可能接近实时结果的任务来说尤其如此。这意味着高性能计算可能会继续用于金融交易等任务,在这些任务中,即使以最微弱的优势击败对手,也意味着你赢了,而对方输了——有时涉及大笔资金。

系统平衡
制造任何计算机都需要许多因素得到适当的平衡。“当你看到高性能计算时,它通常关注的是时钟速度、核数、核的可扩展性和相关的互连,”该公司解决方案和业务发展副总裁Frank Schirrmeister说Arteris IP.“但内存带宽、电源效率、添加自己的矢量指令的能力也同样重要。”

它必须被视为一个数据流问题。Synopsys的艾特肯说:“数据从某个地方开始,它必须从内存中加载到处理器中,由处理器或加速器处理,然后再放回内存中。”“这就是瓶颈存在的整个途径。“非核心”是其中的关键部分,记忆系统是其中的关键部分。在解决特定任务时,您必须确定系统架构中的瓶颈在哪里。这与CPU无关。在企业领域,全世界都在为RISC-V进行研究和工作,但它还没有实现。”

在许多情况下,真正的创新发生在非核心。Arteris的Schirrmeister说:“当你观察一个集群时,你有许多相互连接的处理器。“这就需要考虑核心的可扩展性,这意味着要共同优化核心和互连。RISC-V给了你在这个层面上创新的自由,可能比一些标准许可更好一点。但这需要大量的工作,当然也不是微不足道的。这是集群整合后如何工作的秘密武器之一。”

如今的许多任务,如AI/ML,都是由定制加速器驱动的,通用核心可能只做调度和协调任务。Ventana公司副总裁特拉维斯•拉尼尔表示:“你将不得不进行特定领域的加速,或者使用各种加速器来处理这些数据中心日益增长的计算量。”“一般的cpu是无法做到这一点的。”

其他人也同意。Arm的Lecomber表示:“核心业绩是赌注。“一个hpc就绪的CPU需要良好的矢量性能和每个核心的内存带宽。最后,同样重要的一点是,支持hpc的cpu需要提高效率。开发人员需要提高编程效率,以便从可用的内核和加速器中获得最大的性能。机架级和数据中心的电源效率正在成为限制设计和操作的因素。”

硅的性能如何不仅与ISA或RTL有关。Schirrmeister说道:“如果你着眼于任何IP,你便会发现它们的成功都是基于与物理工具的连接,即对于事物的物理意识。“即使对我们来说,互连作为系统的一部分,也需要与实现流程共同优化IP,以获得正确的性能和功率。对于RISC-V来说,同样的事情也适用于hpc。这并不容易,但已经有一些处理器的公告,似乎是直接对抗数据中心的其他一些核心。”

性能不仅取决于硬件。为特定硬件移植和优化软件可能需要很长时间,这需要正确的生态系统。Schirrmeister补充道:“Arm在如何准备生态系统方面非常聪明。“生态系统围绕着不同的架构,比如x86、ArmV9和现在的RISC-V。这些生态系统总是需要一段时间才能准备好,并得到一切支持。这一切都需要时间来发展和稳定。我想说RISC-V可能还处于早期阶段。是的,势头很大,我们可能比过去快得多。RISC-V受益于Arm的发展,因为你可以从他们获得立足点所付出的代价中学习。”

产业支持
要让RISC-V为高性能计算做好准备,显然还有很多工作要做。为了促进讨论和必要的工作,RISC-V联盟创建了一个高性能计算特别兴趣小组(SIG-HPC).该小组的目标是满足高性能计算社区的需求,并与RISC-V ISA保持一致。根据他们的网站,他们从范围定义开始,SIG-HPC的利益是按照从发现和差距分析到实施的高影响力结果进行排序的。为了实现这一点,需要做两件事——规划一条具有竞争力的道路,并扩展这条道路,以新的特性和功能引领社区。

行业中发生的许多事情也表明了几家公司的发展方向。英特尔在巴塞罗那超级计算中心投入巨资。该公司宣布投资4亿欧元建立一个新的实验室,致力于开发RISC-V处理器和超级计算。然而,英特尔超级计算集团副总裁兼总经理杰夫·麦克维(Jeff McVeigh)在一份相关的新闻稿中表示,“用于高性能计算的RISC-V仍然需要很多年。”

他们的目标是在五年内建立齐级系统,比现在的超级计算机快几个数量级。

另一家高性能处理器开发商MIPS去年宣布,它已转向使用RISC-V开发处理器。MIPS宣布推出基于RISC-V ISA的首个核心,该核心目前正在获得汽车驾驶辅助系统和自动驾驶等应用的许可。但MIPS表示,处理器核心也可以用于数据中心、存储和高性能计算。

就像软件开发一样,90%的工作量只完成了一半。贝尔实验室的Tom Cargill曾经说过一句名言:“前90%的代码占用了前90%的开发时间。剩下的10%的代码占用了另外90%的开发时间。”

相关的
RISC-V解耦向量处理单元(VPU)用于高性能计算
“Vitruvius+:用于高性能计算应用的区域高效RISC-V解耦向量协处理器”,由巴塞罗那超级计算中心的研究人员发表。
RISC-V针对数据中心
随着生态系统的成熟,开源架构在更复杂的设计中获得了一些吸引力。



留下回复


(注:此名称将公开显示)

Baidu