中文 英语

进入超级计算机竞赛

各国使用非常不同的计算架构在速度上竞争。

受欢迎程度

来自不同国家的几家实体正在竞相交付和部署基于芯片的百亿亿次超级计算机,这是一种比当今超级计算机快1000倍的新型系统。

最新的百亿亿次超级计算机CPU和GPU设计在高级包中混合和匹配复杂的芯片,为超级计算机增加了新的灵活性和定制水平。多年来,各个国家一直在争夺这一领域的领导地位,其好处远远不止超级计算机。这些庞大而昂贵的系统为人工智能、生物、国防、能源和科学领域的巨大突破铺平了道路。

今天的超级计算机,以及新的百亿亿次系统,都是基于传统计算的原理,这与量子计算机完全不同。在传统计算中,信息以比特的形式存储,比特可以是0,也可以是1。在量子计算中,信息存储在量子比特或量子位中,可以以0、1或两者的组合形式存在。叠加态使量子计算机的性能优于传统系统,但量子系统距离实用化仍需数年时间。

最先进的传统超级计算机可以执行超过1千万亿(1015)每秒浮点运算数(petaFLOPS或Pflop/s)。如今,由日本理化研究所(Riken)和富士通(Fujitsu)制造的Fugaku超级计算机是世界上速度最快的系统,其高性能Linpack (HPL)基准评分为442 Pflop/s。HPL分数反映了系统在解决某些线性方程时的表现。它不能反映系统的整体性能。

Exascale速度
与此同时,来自中国、欧洲、日本和美国的一些实体一直在开发百亿亿级超级计算机,这些计算机可以进行百亿亿次的计算(1018)或每秒更多(exaFLOPS或Eflop/s)。

最近,中国的两台超级计算机声称已经打破了Eflop/s障碍,尽管这些结果仍未得到证实。今年晚些时候,美国预计将部署其第一台百亿亿次超级计算机,称为Frontier的1.5 Eflop/s或更快的系统。基于AMD的服务器处理器和GPU加速器,Frontier位于橡树岭国家实验室。

美国还在开发另外两台百亿亿次超级计算机,其中包括正在阿贡国家实验室建造的“极光”。Aurora是围绕英特尔的服务器处理器和图形处理器构建的。

从架构的角度来看,所有的超级计算机都是相似的。这些系统由许多机架组成,每个机架由许多计算节点组成。每个计算节点有多个cpu和图形处理器。传统上,许多这样的芯片都是大型复杂的片上系统(SoC)设备,其中所有功能都集成在一个单片芯片上。

这种情况正在开始改变。一些(但不是全部)百亿亿次超级计算机正在使用芯片方法,尤其是美国的系统。这些系统中的cpu和gpu不是SoC,而是包含更小的模具或瓷砖,然后将其制造并重新聚合到高级包中。简单地说,与大型soc相比,制造产量更高的小型模具相对容易。

在一个包中集成多个芯片的想法并不新鲜,特别是在高性能计算(HPC)中。“把多个芯片放在一个包里的想法已经存在很长时间了。IBM在20世纪80年代早期使用多芯片载体来构建他们的大型机,”Hyperion research的高级副总裁鲍勃·索伦森(Bob Sorensen)说。“所以从理论上讲,小芯片只是一个封装中多个芯片的最新化身。但是芯片可以让HPC设计师构建具有精确计算、内存和I/O功能的处理器,最适合HPC的预期工作负载。”

这个市场有一些变化和公告。其中包括:

  • 中国正在部署百亿亿次超级计算机。
  • 美国正在准备其首个百亿亿次级系统。
  • AMD和英特尔公布了他们的百亿亿次级芯片的细节。
  • 业界发布了一项连接封装中的小芯片的新标准。

图1:预计在今年晚些时候部署,Frontier百亿亿次超级计算机的目标是1.5次每秒的性能。资料来源:橡树岭国家实验室

图1:预计在今年晚些时候部署,Frontier百亿亿次超级计算机的目标是1.5次每秒的性能。资料来源:橡树岭国家实验室

超级计算机竞赛
根据Hyperion Research的数据,超级计算机市场总额预计将从2021年的66亿美元增长到2022年的78亿美元。Hyperion将超级计算机市场划分为三个部分:顶级/百亿亿次,大型(每台300万美元以上)和入门级(50万至300万美元)。每台百亿亿次系统的售价约为6亿美元。

多年来,超级计算机已被应用于许多领域。“很多事情都需要超级计算,包括天气预报等大规模模拟任务,加密货币挖矿等大规模算术计算任务,卫星图像处理等大规模图像处理任务,以及用于深度学习训练的大规模神经网络计算,”日本的首席执行官Aki Fujimura说d2.“它被广泛应用于半导体制造领域,用于解决反光刻技术、掩模工艺校正、掩模和晶圆的仿真验证以及掩模和晶圆检测等问题。”

从时间轴来看,计算领域已经取得了巨大的进步。1945年,宾夕法尼亚大学研制出第一台通用电子数字计算机ENIAC。ENIAC利用真空管处理数据,每秒能增加5000个数据。

从20世纪50年代开始,晶体管在许多系统中取代了真空管,使计算机变得更快。晶体管是芯片的关键组成部分,在设备中起到开关的作用。

1964年,现在已经不存在的控制数据公司推出了世界上第一台超级计算机CDC 6600。6600集成了一个采用晶体管的60位处理器,性能为2 MIPS。从那时起,超级计算机变得更加强大。与此同时,各个国家继续在性能领先地位上相互超越。

例如,在2008年,IBM的Roadrunner是世界上最快的超级计算机,其性能为1.026 Pflop/s。它成为第一台达到这一里程碑的超级计算机。2010年,中国凭借性能达到2.57 Pflop/s的超级计算机“天河- 1a”跃居世界领先地位。

自2020年以来,日本的Fugaku一直是超级计算领域的第一名。IBM的Summit排名第二,是美国最快的超级计算机

Fugaku系统由158,976个计算节点组成,共7,630,848个Arm处理器核心。“每个节点都配备了一个名为A64FX的处理器,由48核通用处理器核心和4个辅助核心组成。A64FX是用7nm工艺制造的,”富士通/理研的研究员Shuji Yamamura在最近的ISSCC会议上的一篇论文中说。

Fugaku使用定制的ARM处理器。这不是一个小花板结构。相比之下,中国的超级计算机往往使用定制处理器。许多非百亿亿次超级计算机使用的是商用芯片。

“对于更主流的高性能计算领域,硬件决策主要基于更主流的大规模组件的可用性,”Hyperion的Sorensen说。“这些可能包括英特尔cpu、英伟达gpu和InfiniBand互连。它们可能被配置为最适合HPC工作负载环境,或者可能具有一些积极的包装和冷却功能,以处理电源问题。”

cpu和gpu在高性能计算中都起着关键作用。“对于顺序数据处理类型的编程,cpu往往比gpu更具成本效益。但对于任何给定的数据单元都需要大量计算的任务,gpu的效率会高得多,特别是当计算任务可以转换为单指令多数据(SIMD)问题时。这就是大部分数据并行处理的地方,并在不同数据的相同指令中执行,”D2S的藤村说。

Exascale时代
展望未来,超级计算正在进入百亿亿次时代,有望在生物、国防、科学和其他领域带来新的突破。

百亿亿次系统的开发成本很高。Hyperion的Sorensen说:“在百亿亿次范围内,一个5亿美元以上的高性能计算机可能有20%以上的预算用于开发特殊功能,如定制芯片、互连和其他组件,以满足某些目标工作负载需求。”

几个实体正在开发百亿亿次超级计算机。中国似乎以微弱优势领先,美国紧随其后。欧洲落后于其他国家。今年早些时候,欧洲高性能计算联合计划(EuroHPC)启动了几个新项目,包括一个百亿亿次计划。目前还不清楚欧盟何时会推出这一系统。

据亥伯龙研究公司称,中国有三台百亿亿次超级计算机正在研发中,分别是神威海洋之石、天河三号和曙光号。“神威海洋lite”安装在无锡国家超级计算机中心,于2021年完工。去年,研究人员声称其峰值性能达到了1.3 Eflop/s的水平。本系统基于内部设计的SW39010 CPU。据Hyperion称,该系统总共由超过3800万个CPU内核组成。

去年年底完成的天河三号已经展示了1.7 Eflop/s的性能。与此同时,Sugon系统被推迟。来自中国的性能结果都没有得到证实。

中国倾向于使用传统的定制处理器,而美国的百亿亿次级系统则采取了另一种方式。cpu和gpu利用了芯片,你可以混合和匹配芯片,并将它们组装在包中。

迄今为止,AMD、英特尔、Marvell等公司已经开发了chiplet主要面向服务器等高端应用。这个概念对于超级计算机来说也是理想的。

Promex公司总裁兼首席执行官Richard Otte表示:“Chiplets将应用于多种应用程序,这些应用程序受益于其特性,包括显著缩小尺寸、降低功耗和更好的高速性能。QP技术.“例如,国防部和DARPA正在努力让最快的超级计算机进入他们的实验室,而芯片将有助于实现这一目标。”

今天,美国有三个百亿亿次系统——极光、El Capitan和Frontier。Frontier预计将于2022年底投入运营,Aurora和El Capitan将于2023年投入运营。

2019年,美国能源部(DOE)授予Cray公司在橡树岭国家实验室建造Frontier百亿亿次超级计算机的合同。2019年,Cray被惠普企业(HPE)收购。

HPE为Frontier构建了支持大量计算节点的平台。每个计算节点支持一个AMD的服务器cpu和四个AMD GPU加速器。

AMD的新GPU加速器基于台积电的6nm工艺,包含两个芯片,总共由580亿个晶体管组成。该架构的峰值性能超过380万亿次浮点运算。

GPU架构集成在一个2.5 d包装与扭曲。在大多数2.5D/3D封装中,模具被堆叠或并排放置在中间层的顶部在矽通过(tsv)。tsv提供从模具到电路板的电气连接。

“tsv是使能技术3 d-ics,在堆叠的芯片之间提供电气连接。具有tsv的3D-IC技术的主要优势是它在不同组件之间提供了更短的互连,这导致更低的电阻-电容延迟和更小的设备占地面积,”该公司的研究员Luke Hu说联华电子他在最近的一篇论文中写道。

图2:高性能计算封装的不同选项,基于中间层的2.5D vs基板上扇出芯片(FOCoS)。来源:日月光半导体

图2:高性能计算封装的不同选项,基于中间层的2.5D vs基板上扇出芯片(FOCoS)。来源:日月光半导体

在2.5D/3D封装中插入器可以,但结构上有浪费空间。因此,一些公司开发了一种替代方法,称为硅桥.桥是一种带有路由层的小硅片,它将一个芯片连接到另一个芯片。例如,英特尔开发了嵌入式多模互连桥(EMIB),这是一种通常嵌入在衬底中的硅桥。

与此同时,在AMD的GPU中,该公司堆叠了一个GPU和高带宽内存(HBM)并排在硅桥上。HBM基本上是一个DRAM存储器栈。

与EMIB嵌在基板中不同,AMD将电桥置于基板顶部。AMD称之为2.5D高架扇出桥(EFB)。

图3:基板桥与AMD的2.5D高架扇出桥(EFB

图3:基板桥与AMD的2.5D高架扇出桥(EFB

其他百亿亿次超级计算机也在研制中。不久前,劳伦斯利弗莫尔国家实验室、惠普和AMD宣布了El Capitan,这是一种exascale系统,预计速度将超过2 Eflop/s。该系统基于AMD的芯片cpu和图形处理器。

与此同时,在2019年,美国能源部、英特尔和惠普宣布计划建造≥2 Eflop/s系统Aurora。最初,极光预计在2021年交付给阿贡,但由于英特尔的芯片延迟,这一计划被推迟。

Aurora基于HPE的超级计算机平台,拥有超过9000个计算节点。每个节点由两个Intel的Sapphire Rapids处理器、六个Intel的GPU加速器(代号Ponte Vecchio)和一个统一的内存架构组成。它由10pb的内存和230PB的存储空间组成。

Sapphire Rapids是下一代至强处理器,在一个封装中集成了4个更小的CPU芯片。基于英特尔的7nm finFET工艺,模具使用EMIB连接。

处理器由超过100MB的共享L3缓存、8个DDR5通道和32GT/s PCIe/CXL通道组成。英特尔首席工程师Nevine Nassif在最近的ISSCC活动上表示:“新技术包括英特尔高级矩阵扩展(AMX),一种用于加速AI工作负载的矩阵乘法功能,以及用于解决新的和新兴工作负载的新虚拟化技术。”

在Aurora中,CPU与基于Intel Xe-HPC微架构的GPU Ponte Vecchio一起工作。这个复杂的设备在一个包中包含了五个流程节点上的47个瓦片。该设备总共由超过1000亿个晶体管组成。

基本上,庞特维奇奥堆叠两个基模在基板上。在每个基本芯片上,英特尔堆叠一个内存结构,然后是计算和SRAM瓦片。该设备还有8块HBM2E瓷砖。为了使芯片之间能够相互通信,英特尔使用了专有的芯片到芯片链接。

基于英特尔的7nm工艺,两个基模为GPU提供了一个通信网络。这些芯片包括内存控制器、电压调节器、电源管理和16个PCIe Gen5/CXL主机接口通道。

在每个基本芯片上,英特尔堆栈8个计算瓦和4个SRAM瓦。计算芯片基于台积电的5nm工艺,而SRAM则基于英特尔的7nm工艺。

该设备总共包含16个计算块和8个SRAM块。每个计算瓦有8个核。英特尔研究员Wilfred Gomes在ISSCC的一篇论文中说:“每个核心包含8个向量引擎,处理512位浮点/整数操作数,8个矩阵引擎,8个8深收缩数组,执行4096位向量操作。”

对于电力输送,英特尔在基模上实现了所谓的完全集成电压调节器(fivr)。Gomes表示:“基座模具上的FIVR可为每个基座模具提供高达300W的0.7V电源。“3d堆叠fivr可以对多个电压域进行高带宽细粒度控制,并降低输入电流。”

热管理是先进包装的重大挑战。为了解决这个问题,英特尔在GPU上安装了一个散热器。然后,在顶部模具上应用热界面材料(TIM)。

TIM消除了由不同模具堆叠高度引起的空气间隙,以减少热阻。除了47个功能瓦,还有16个额外的热屏蔽模具堆叠,在暴露的基础模具区域提供热解决方案,以传导热量,”Gomes说。

如何培养小芯片
超级计算只是芯片的众多应用之一。最近,一些供应商为服务器开发了类似芯片的设计。未来的芯片架构正在研究中。

开发类似芯片的设计很有吸引力,但也存在一些挑战。开发小芯片需要资源和一些元素。

如前所述,在芯片中,不是设计大型SoC,而是从头开始使用较小的模具设计芯片。然后,你制造模具,重新组装成一个包。有几个与此相关的设计考虑因素。

三星电子首席技术官Choon Lee表示:“在某种意义上,这种高级封装或高级产品需要高密度互连。JCET.“因此,在这种情况下,封装本身不再只是封装中的单个芯片。在更高级的封装中,你必须考虑布局、与芯片和封装的交互,以及如何路由这些层。问题是如何真正优化布局,以获得最优性能或最大性能。”

这还不是唯一的问题。在封装中,有些模具是堆叠的。其他死亡位于包的其他地方。所以你需要一种方法将一个骰子连接到另一个骰子,使用die-to-die互连。

如今的芯片式设计使用专有总线和接口连接模具,这限制了该技术的采用。有几个组织一直在研究开放总线和接口标准。

在最新的努力中,日月光、AMD、Arm、谷歌、英特尔、Meta、微软、高通、三星和台积电最近组成了一个联盟,正在建立一个芯片支持的模对模互连标准。该组织还批准了UCIe规范,这是一个封装级的开放工业互连标准。UCIe 1.0规范涵盖了die-to-die I/O物理层、die-to-die协议和软件堆栈。

“芯片时代已经真正到来,推动行业从以硅为中心的思维发展到系统级规划,并将关键重点放在集成电路和封装的协同设计上,”李宏曹说,该公司工程和技术营销总监日月光半导体.“我们相信,UCIe将在提高生态系统效率方面发挥关键作用,通过多供应商生态系统中各种ip之间的接口开放标准,以及先进的包级互连的利用,降低开发时间和成本。”

这并不能解决所有问题。在所有的包装中,热预算是一个大问题。该公司高级包装开发与集成副总裁Michael Kelly表示:“功耗和功耗是一个巨大的挑战公司.“由于包装层面的整合,它在包装行业击中了要害。不幸的是,硅产生了大量的废热。它的热效率不高。你得找个地方发泄一下。无论最终产品是手机壳还是数据中心的饮水机,我们都必须让它尽可能地热效率高。我们必须为高性能的封装提供多少实际电流也变得有趣起来。电力没有下降,但是电压在下降。为了提供相同或更多的总功率,我们的电流会上升。像电迁移这样的问题需要解决。 We’re probably going to need more voltage conversion and voltage regulation in the package. That way we can bring higher voltages into the package and then separate them into lower voltages. That means we don’t have to drag as much total current into the package. So power is hitting us in two ways. It’s heat, but it’s also managing that power delivery network electrically. That’s forcing more content into the package, while also doing your best on thermal power dissipation.”

结论
显然,芯片构成了一种使能技术,它们正在进入服务器设计。最近,苹果公司推出了一款采用芯片式处理器设计的Mac台式机。现在基于芯片的百亿亿次超级计算机已经问世。

对于百亿亿次超级计算机,基于芯片的方法正被用于Frontier、El Capitan和Aurora系统。Fugaku和Sunway Oceanlite等其他项目则继续采用传统的基于soc的方法。这两种方法都有效。比赛开始吧。

有关的故事
量子计算竞赛
公司和国家正在向不同的量子比特技术投入数百亿美元,但现在预测赢家还为时过早。

新一代3D芯片/封装竞赛开始
混合粘接开辟了包装性能的全新水平,但它不是唯一的改进。

拼接小纸片
可能将这种包装方法推向主流的变化,以及未来的挑战。

先进包装的下一波浪潮
一长串的选项将多芯片封装推向了设计的前沿,同时产生了令人眼花缭乱的选项和权衡



留下回复


(注:此名称将公开显示)

Baidu