中文 英语

“不止摩尔”的现实检验

多芯片设计正变得越来越主流,但差距仍然存在。

受欢迎程度

随着功能扩展达到物理极限,半导体行业正在拥抱多芯片封装,但如何以最少的痛苦和最低的成本实现这一目标仍是一项正在进行的工作。工具和方法仍然存在差距,互连标准仍在开发中,包装的实现如此之多,以至于选择的数量往往是压倒性的。

今天的多模实现包含了在过去40年里发展起来的一系列封装技术和方法。它始于20世纪80年代的多芯片模块。在20世纪90年代末,系统包方法被引入。2008年左右,基于interposer的实现紧随其后。今天,所有这些仍然存在,以及扇出,真正的3d - ic和一些专有的实现chiplets,有时被称为分解soc。

这在很大程度上是由于10nm以下的扩展降低了性能和功耗效益,以及最先进节点上与物理相关的问题越来越多,例如多种类型的晶圆噪音、热效应及电迁移.在这些节点上工作的大多数公司已经在使用某种形式的先进包装来帮助证明转移到下一个节点的巨大成本是合理的。

在这种“超越摩尔”的范式中,有三个主要的变化正在发生:

  • 使用小芯片的异构集成。英特尔(Intel)、AMD和Marvell等公司已经在自己的设计中使用芯片方法,但目前正在努力将芯片接口标准化,并向第三方芯片开放。
  • 多芯片性能的巨大改进。方法包括扇出晶圆级封装原本被定为低成本的替代品2.5 d而且3 d-ic但密度、支柱、高带宽内存和更快的互连速度使这些方法更具吸引力。3d - ic同样也开始在高端市场崭露头角。
  • 所有主要铸造厂都转向先进的包装。今天,台积电、联华电子、GlobalFoundries、三星和其他公司都提供先进的包装选择。台积电还在开发生产线前端的封装技术,即用直接键合的方法将芯片直接蚀刻在硅上。

“MTM的部分增长可能意味着摩尔定律真的要结束了,一些人认为它已经结束了,”英特尔IC封装和跨平台解决方案产品管理集团总监John Park说节奏.“事实上,自从finFET成为一种选择,每个晶体管的价格实际上已经上升了。这是摩尔定律的重要组成部分,所以你可以说它在2012年或2013年就结束了。”

不管怎样,绝对至少对于SoC中的许多组件来说,都是如此。他说:“由于物理定律,我们无法制造一些东西。“与此同时,在最新节点上设计芯片需要花费数百万美元,需要大型设计团队。如果国防部正在建造1000艘核潜艇,他们将永远无法收回7纳米或5纳米设计的NRE。因此,国防部以及中、小批量工程团队已经开始寻找基于摩尔定律的简单扩展的替代方案,因为它已经没有意义了。”


图1:多模解的演化。来源:节奏

Xilinx在2011年推出了首款商用2.5D芯片,该芯片基于四个芯片通过一种芯片连接而成插入器.该公司当时表示,做出这一决定的主要原因是更小的芯片实现了更好的成品率。从那时起,重点已经转移到设计大型平面芯片的成本,以及在高级节点设计中添加更多RF和模拟的困难,因为模拟无法从缩放中受益。事实上,先进芯片中的许多模拟IP块都是混合信号,越来越强调数字部分。

“真正的单片3D在未来几年内上线时将增加更多的可能性,”Rob Aitken说手臂.“向多芯片转型有两个主要驱动因素——成本和性能。当一个大模具的产量预期较低时,成本就会降低,而多个小模具带来的产量提高将超过额外的成本和组装和包装的复杂性。在这些情况下,特别是在相邻的芯片方法中,设计人员需要首先集中精力在芯片之间分割设计,以使芯片之间的通信带宽最小化。他们也可以选择在不同的过程中实现单独的芯片,在较早的节点上实现模拟或混合信号电路的同时,将高速数字逻辑定位到前沿。一旦决定使用多模具,那么就有必要看看多模具解决方案所能实现的、不能在单个模具中复制的功能。最简单的例子是一个设计太大,以至于不能装进一个十字线。但其他可能性也很多,特别是对于具有高模具间带宽的堆叠模具解决方案。”

堆叠芯片增加了另一个维度的布局,这是一个很大的好处,因为芯片变得更大,电线变得更细。例如,这使得芯片制造商可以将缓存移到更靠近处理器的地方。由于数据需要传输的距离减少了,而且互连可以根据需要调整大小,因此可以显著提高性能。在某些情况下,这相当于扩展到下一个节点。Aitken说:“在多芯片系统中选择正确的功能分割也可以实现底层逻辑、内存和I/O芯片的不同组合,这使得多个不同复杂性的系统可以从几个简单的构建模块中构建出来。”

预测性能
然而,这并不总是那么简单。在任何设计中一个重要的考虑因素是预测性能的能力。估计可能会有所不同,实施解决方案并不像添加乐高积木那么简单。理解不同的块和实现如何影响性能和功率与单个芯片一样重要,这要从对不同组件的良好描述开始。

“有了这些性能指标,芯片和系统设计师可以在非常早期的设计阶段比较不同的技术风格,例如不同的金属堆栈或阈值电压或不同的技术,”Andy Heinig说夫琅和费IIS自适应系统工程部.“这些指标也可以在下一阶段用于比较不同的系统架构。这样,芯片和系统设计人员就可以了解系统性能的可能性。但到目前为止,系统设计人员还没有为包提供这样的指标。此外,目前有很多不同的包技术可用,它们都不能一起使用。适合一种衬底技术的不同成球技术与其他技术并不匹配。只有这样的决定可以由封装技术专家决定,但他们在电气方面没有经验。电气系统专家不知道封装技术的来龙去脉。所以从这一点来看,非常好的指标或高水平的探索工具是必要的。”

这些工具需要隐藏技术细节,同时只显示有效的打包选项。Heinig说:“有了这样的工具或指标,系统设计师可以比较不同的架构,例如NoC或芯片之间的互连数量,以一种简单而快速的方式。”

先进封装的最大优势之一是热量可以在模块中通过封装传播,而不是封装在单个模具上。在7纳米及以下的finFET设计中,泄漏电流、电阻和动态功率密度会产生如此多的热量,因此需要复杂的电源管理方案来避免煮熟芯片。但是热量管理和功率分配并不总是那么简单。

Richard McPartland,技术营销经理观察到,多模具的实现增加了更深一层的复杂性,多个高性能的模具深深嵌入在2.5D或3D包中Moortec.“标准做法是在每个芯片中包含一个芯片内监控器,例如来自Moortec的监控器,以提供在启动和任务模式下的芯片上实时状况的可见性。通常,使用数十个温度传感器来监测已知和潜在的热点。此外,强烈推荐具有多个传感点的电压监视器。这使得在速度如此依赖于电源电压的关键电路块上的电源电压直接被监测和控制。片上过程探测器也是处理性能和电源效率至关重要的重要工具。当作为完整监控子系统的一部分使用时,它们可以实现电压缩放和老化补偿等优化方案。”

为什么选择多模?
尽管存在这些挑战和其他挑战,但业界别无选择,只能推进多芯片实现。与此同时,先进的包装为过去从未存在过的一些选项打开了大门。

“[多模方法]是一种很好的方法,可以更具体地定制工艺技术,以满足系统的部分需要,”Steven Woo说Rambus.“AMD在多芯片解决方案上有一个很好的例子,计算核心构建在一个芯片上,你需要多少就放多少。然后它们都围绕着另一个die,它的工作是连接I/O和内存。这种实现的真正好处是所有这些技术都以不同的速度发展。所以你可能有一些快乐的东西,和DDR4或DDR5交谈得很好。但当它出现时,内存的改进速度在历史上往往比处理器的改进速度慢一些,所以当你构建下一个处理器时,你不需要将相同的内存接口移植到下一个进程节点。只要你对它的性能和电源效率满意,你就可以把它留在原来的地方。但你要做的是驾驭技术曲线,构建更好的处理核心。从这个角度来看,这真的很好,因为你可以把所有的精力都花在需要改进的地方,也就是处理核心上。你在上一轮中所做的——内存和I/O接口——它们不会很快改变,所以你可以再次使用那个die。”

这也有助于提高产量。Woo说:“因为模具的产量很大程度上取决于模具的尺寸,如果你总是添加界面之类的东西,它自然会使模具变得更大。”“所以,多模模具是一种优化成本的方法,然后优化你投入精力的地方。”

多芯片实现的另一个考虑因素是它将热量分散到更大的区域。“所有这些都受到高温的影响,”他说。“你必须确保的是,这样做的性能、成本和物理规模符合能够达到性能目标和成本目标的标准。我们可以肯定地看到,在某些情况下,这是正确的。但是你需要一些方法来连接这些东西,所以现在有了更多I/ o的机会。在设计连接芯片的I/ o时,你可以做出一系列的权衡。”

多模用例
今天的多芯片实现是芯片世界的先驱。它们被用于从高性能人工智能训练到推理、基因组学、流体动力学和高级预测应用的所有领域。

Rambus IP核高级总监苏雷什•安达尼(Suresh Andani)表示:“这些工作负载非常复杂、复杂。”“如果你考虑一个单片芯片,它需要所有的I/ o来让数据进出正在处理它的芯片。然后,芯片本身有很多计算元素需要进行高性能计算。然后,你必须以最低的延迟和最高的带宽接近内存访问,你必须尝试将所有这些东西装进一个单片芯片中。”

多模实现是一个全新的机会,潜在的用例才刚刚开始出现。

公司高级产品营销经理Manmeet Walia表示:“设计方面的考虑非常依赖于用例,这分为两类Synopsys对此.“一种是分割模具——将一个大模具分成更小的块,因为芯片已经接近网线的最大尺寸限制。他们已经到了这样的地步,即建造这些大型模具在经济上和技术上都不可行,因为产量很低。这是一个经济和技术可行性问题。”

目前,大多数先进的软件包都被用于网络交换、服务器和AI训练和推理。但随着这些方法变得越来越主流,它们也开始出现在其他应用程序中。

Walia说:“另一个类似的用例是,根据不同的应用,很多计算芯片都想要扩展。”其中一个公开的例子是AMD的Ryzen芯片组。他们可能想要使用相同的芯片进入桌面,高端桌面或服务器,所以为了扩展SoC,他们可能会构建一个基本芯片,然后可能会使用一个笔记本电脑,两个台式机,四个服务器应用程序。这是另一个用例,即扩展这些soc。”

多芯片实现还允许设计团队在SoC中集成多种功能。“他们想要整合多种功能。5G无线基站就是一个很好的例子,它可能有一个射频芯片,其中天线以更大的几何形状开发,而基带芯片则更加数字化和缩小。这使得他们基本上可以重复使用射频芯片。

瓦利亚说:“但他们会不断优化,并引入多种功能。”“一些FPGA公司也做了同样的事情。这发生在汽车行业,以及消费应用领域。例如,一台电视可能有许多不同类型的连接,包括有线连接甚至无线连接。所以一个零件可能有不同的模具,但是数字信号处理,视频处理,是在一个大的数字模具中进行的,它会不断缩放,它会在加工几何图形中继续向下移动。聚合多个功能或将不同的功能放在一起是另一个用例。”

选择节点
高级封装最早的论点之一是能够混合和匹配在不同流程节点上开发的IP。最初的实现在很大程度上是同质的,但由于摩尔定律的放缓和终端市场的分裂,这种情况在过去几年已经发生了变化。这反过来又为基于多种工艺选择的半定制解决方案提供了大量机会。

“有时我们必须提供的解决方案是多芯片解决方案,所以我们可能有一个SiP,其中有两个芯片,然后这个芯片基本上是特定于它必须管理的功能,”达伦霍布斯,营销和业务发展副总裁解释说Adesto技术.“通常射频和高速射频是在较老的几何尺寸(如0.18)下完成的,这对于低于6 Gbps来说仍然是一个非常好的几何尺寸。超过6gbps,我们可能会达到55nm。这些是RF的最佳节点。与此同时,如果你对大量的处理有要求,你想要深入到更深的几何形状,比如28nm或finFET空间。然后,如果你想从芯片上获取数据,它就需要一个高速接口,这本身就决定了你可以使用什么几何形状。有很多相互竞争的要求,每个人都想要一个整体的骰子,所有的东西都在一个骰子上,因为这通常是最便宜的。但不可避免的是,在很多情况下,我们必须提供两个芯片的解决方案,在某些情况下,我们必须提供三个芯片的解决方案。它归结为过程和功能之间的最佳权衡。”

SiP演进为小芯片
与分解/模块化SoC方法类似的是传统的包中系统,它也不是静止不动的。

Cadence的Park说:“我们现在谈论的是小块芯片,而不是多个芯片。”“我们一直都有硬IP和软IP,这是驱动soc的关键。我们现在有了第三个版本的IP,叫做chiplet,它已经被建造、制造和测试。已经准备好了,可以插上电源了。如今,只有垂直整合的公司在设计芯片和他们坐的芯片。”

但随着行业开始采用多芯片实现,这种情况有望发生变化,这将对供应链产生广泛影响。

该公司半导体业务部门营销副总裁兼首席策略师Vic Kulkarni表示:“这一趋势现在正转向汽车传感器摄像头等应用领域。有限元分析软件.“对于多芯片集成,你是如何做到的?这正在成为世界各地许多公司的市场。这些都不是标准的节点驱动设备。这些是用例驱动的设备。这是人们正在走向的方向,而不仅仅是标准的技术进化,也就是摩尔定律。”

一个例子是索尼开发的3D-IC,它的顶部有一个CMOS传感器,然后是一个AI芯片,底部是CPU芯片,所有这些都与硅通孔(tsv)连接。“这是一个真正的3D-IC,而不是现在最常见的2.5 D。真正的3D-IC结构将有助于为自动驾驶做出更好的决策,无论是在融合摄像头的意义上,还是在几乎所有的汽车上。非常有趣的是,它将多个问题结合在一起——机械操作、热膨胀、焊锡疙瘩因热而松动,以及其他热问题,因为自动驾驶汽车的发热量非常高。高性能计算应用也存在同样的问题。”

哪种打包方法最适合高性能计算还有待观察。这可能取决于各种因素,比如什么对特定应用来说足够好,以及算法是否可以与硬件紧密结合以弥补任何低效率。

Park说:“如果你同意这种异构集成的定义,以及基于芯片的方法是一种分解的SoC,那么它将对PPA产生重大影响。”“这些东西将由多个块构建而成,而不是集成在一个单一的单片设备中。在高性能计算等应用程序中,我在这里打了问号。一定会有影响的。唯一的问题是,它是否在可接受的范围内?这显然有好处,包括降低成本。这更容易做到,它需要更小的设计团队,理论上风险更低。但在PPA领域,这是过去十年SoC设计界的每个人都关注的焦点,有很多未知的东西。现在还不存在标准。没有商业模式。 Because of this, there is no general commercialization of chiplets. It’s where the industry wants to go, but there’s no business model for the IP providers, there’s no standards, and there’s no metrics on the PPA impact on using this type of disaggregated approach.”

在芯片技术不断发展的同时,高性能计算技术也在不断发展。事实上,许多新的打包方法都是由HPC驱动的,它需要包内内存,无论是GDDR6还是HBM2/2E。

“这与以前的计算架构相比,在PCB主板上内存是分开的,”基思·费尔顿(Keith Felton)说Mentor是西门子旗下的企业.“随着当今的性能需求——比如带宽和低延迟,以及最小化功耗——内存正在与处理器一起进入封装。这是一个趋势,将开始延伸到更多的消费高性能设备,如笔记本电脑。用户可升级内存将成为过去式。”

与单片SoC相比,HPC使用同质和异构设备。“由于产量和成本的挑战,大多数HPC cpu不再使用单片SoC,”Felton说。相反,他们经常转向同质集成,将整体设计分解为两个或多个芯片。采用同质性,所有模具必须集成在一起才能发挥作用。HPC还可以采用异构集成技术,其中模具可以单独操作或组合,以提供更大的性能扩展。”

通常需要一个硅中间体或嵌入式硅桥来满足数据速率和延迟性能的要求。在使用同构或异构分解方法构建HPC CPU时,必须最小化数据吞吐量和延迟,不仅是构成CPU的芯片之间,而且是内存之间。在这一点上,典型的是一个全硅中间体或一个嵌入式硅桥(一个或多个)用于提供硅级信号之间性能的关键模间功能。

以上所有项目都需要创建一个3D组装级模型,以定义和理解设备和支撑基板之间的关系,同时也作为蓝图或黄金参考模型(数字孪生),用于驱动实现、验证、建模和分析。还需要在设计周期的早期对芯片-封装的相互作用进行热诱导相互作用应力分析,以防止早期现场故障。由于不同的材料及其相互作用,芯片与封装之间的相互作用仍然是一个主要的挑战。Felton表示,在设计进入完整的电气设计之前,需要考虑并缓解翘曲和微碰撞开裂等影响,3D组装模型至关重要。

最后,由黄金三维虚拟装配模型和系统级网表驱动的三维装配验证是必要的。

他说:“对于任何在单个元件制造后必须进行组装的多模具、多衬底器件,您需要验证制造后的所有内容仍然保持一致,并且电气和机械性能符合预期。”“这就是3D虚拟模型或数字双胞胎发挥关键作用的地方。它提供了验证、分析和建模工具,并提供了项目如何互连的蓝图,然后可以将其映射到实际的物理制造数据,以检测任何变化,如模具收缩导致的错位,可能导致短路或打开或最终的生命周期故障。”

相关文章
热挑战和摩尔定律
为什么有些部件变得越来越大,越来越贵。
芯片,更快的互联,更高的效率
为什么英特尔、AMD、Arm和IBM专注于架构、微架构和功能变化。
摩尔定律现在需要先进的包装
专家们,第一部分:缩小功能已经不够了。现在最大的挑战是如何实现规模经济和最小化复杂的集成问题。
摩尔和更多(博客)
小芯片,包装和一些有趣的新挑战。



1评论

迈克尔 说:

读得好!我正在研究一个新的框架,这是非常深刻的见解。

留下回复


(注:此名称将公开显示)

Baidu