中文 英语

新的架构,更快的芯片

大规模的创新驱动性能的数量级改进。

芯片行业正在多个物理维度和多种架构方法上取得进展,为基于更模块化和异构设计、新的先进封装选项以及至少更多工艺节点的数字逻辑的持续扩展的巨大性能提升奠定了基础。

在最近的会议上已经讨论了其中一些变化。单独来看,它们具有潜在的重大意义。但总的来说,随着设备规模化的好处减少和市场需求的变化,他们指出了一些重要的趋势。其中包括:

  • 对于高性能应用,芯片的设计基于更有限的数据移动和近内存计算。这可以从I/ o位于芯片外围而不是中心的布局图中看到,这种方法将通过减少数据需要传输的距离来提高性能,从而降低总体功耗。
  • 数字逻辑的缩放将继续超过3nm使用高na EUV,各种gate-all-around场效应晶体管(cfet,纳米片/纳米线fet)和碳纳米管器件。与此同时,十字线的尺寸将增加,以允许更多的组件适合一个包,如果不是在一个单一的模具上。这两项举措都将通过缩小功能来增加更多的空间,从而实现更大的计算密度。此外,SRAM的扩展将继续,高带宽内存(HBM)模块和3D-NAND闪存将增加更多的层。
  • 设计正变得更加模块化和多样化,为更多的定制化和更快的上市时间奠定了基础。所有主要的晶圆代工厂和osat现在都支持achiplet他们根据价格和性能要求提供多种选择。

其中一些已经酝酿多年,但大部分的发展都是零敲碎打。现在已经没有单一的行业路线图了,在过去,它一直被用作所有开发如何结合在一起的指南。在没有路线图的情况下,所有方面的工作都在继续,但通常很难理解大图景是如何发展的,因为不是所有事情都同步移动。例如,在EUV商业化之前,ASML就公开谈论高数值孔径EUV,用变形透镜取代平面透镜。像这样的公司日月光半导体在过去十年的大部分时间里,Amkor一直致力于多个版本的扇出、2.5D和3d - ic,尽管这些包装方案的市场与最初想象的有很大不同。

还有许多新的发展即将出现。主要铸造厂等台积电联华电子GlobalFoundries而且三星正在将先进的包装能力构建到制造的后端。台积电还计划使用无凸点混合键合技术在前端添加芯片,该公司称之为SoIC。所有这些都可能需要整个行业发生重大变化,从EDA工具到测试和硅后监控。

目前还不清楚所有这些不同的因素会以多快的速度结合在一起。没有人喜欢第一,在这一点上,这些方法和技术中哪一种会胜出并不明显,甚至它们是否会相互竞争也不明显。但随着数据量的持续增长,改变是必不可少的。这推动了更多的定制解决方案,以更接近源头的方式处理和利用数据,其中包括几乎无处不在的某种程度的智能。

在过去,解决方案是围绕最先进的硬件或软件开发的,其假设是下一代流程将大大提高性能。这已经行不通了。扩展变得更加困难和昂贵,缩小功能的功率/性能收益正在减少。此外,一刀切不再适合所有人。根据终端客户在计算层次结构中的位置(端点、边缘或云)以及数据需要如何结构化和划分优先级,它可能会有很大差异。因此,芯片制造商已经将注意力转移到新的、更模块化的架构上,这些架构能够在云中进行大规模模拟和训练算法,从源头上清除无用的图像和流媒体视频数据。

从长远来看,更多的处理需要在任何地方更快地进行,并且需要使用相同或更少的功率来完成。此外,系统需要更快地创建,并且它们需要能够随着市场需求的发展和算法的不断变化而更快地变化。

架构的变化
为了实现这一点,硬件架构需要改变。芯片制造商预见这一趋势已经有一段时间了。例如,IBM的新Power 10芯片将定制的计算元素集中在芯片的中心,而将外围设备和I/O移到边缘。

该芯片的首席架构师比尔·斯塔克(Bill Starke)在最近的热芯片(Hot Chips)大会上表示:“加速需要被推进到处理器核心。”“芯片周边是物理物理层。”IBM还引入了pod级集群,并添加了一个新的微体系结构来支持所有这些。


图1:IBM的Power 10芯片(L.,来自Hot Chips 2020),处理核心集中在芯片中间,由本地化内存和共享L3提供服务,与Power 9 (R.,来自Hot Chips 2018)相比,中间是片外互连。资料来源:IBM/Hot Chips 2018/20

其他人也在采取类似的方法。英特尔推出了一种基于内部开发的芯片的新架构,该架构使用嵌入式多芯片互连桥将模块化处理元素聚集到HBM模块上。此外,它还更新了最新的服务器芯片架构,以最大限度地减少数据移动。


图2:英特尔最新的服务器处理器架构(r)相比上一代(l)减少了数据的移动资料来源:Intel/Hot Chips

同样,制造人工智能系统的Tenstorrent公司创建了一个高度模块化的系统,包括120个独立的核心,与一个2D双向环面NoC连接。Tenstorrent软件工程总监Jasmina Vasiljevic表示:“每个核心都有自己的发展节奏。

比例持续
与消费类应用相比,数据中心芯片对成本的敏感度要低得多,因此它们往往在性能上领先于行业。高性能服务器通过系统的价格来分摊芯片开发成本,而不是通过体积来分摊,例如,这对于移动电话应用程序处理器来说是必不可少的。因此,尽管关于摩尔定律终结的预测层出不穷,但由于密度原因,许多设备中的数字逻辑将继续使用最新的工艺几何。

但不同的是,性能不那么关键的电路以及模拟模块越来越多地被分流到独立的芯片上,这些芯片通过高速接口连接。

at的产品总监马特·霍根(Matt Hogan)说:“现在可以按节点进行分区导师,西门子业务。“所以你可以确定什么是设计的特定部分的正确技术。这也让你可以调整一些副作用。”

戈登·摩尔(Gordon Moore)在1965年首次发表他现在著名的观察时提到了这种方法。

该公司首席应用工程师Tim Kogel表示:“随着工艺技术的快速发展,采用现成的解决方案通常比开发定制芯片更便宜Synopsys对此.“到目前为止,每个新流程节点的更高性能和更低功耗的免费午餐几乎已经结束。另一方面,像AI、自动驾驶、AR/VR等杀手级应用,对处理能力和计算效率有着不可抑制的需求。谷歌的TPU和特斯拉的FSD芯片等著名的例子表明,根据目标工作负载的特定特征定制架构的投资回报率令人印象深刻。”

尽管如此,摩尔定律最初的价值正在减弱,这对经济和技术都有影响。随着finfet的引入,当每个晶体管的成本从前一个节点停止下降时,平面扩展的经济效益就结束了。同样,自90nm左右以来,功率/性能效益一直在下降。台积电研发高级副总裁Y.J. Mii表示,3nm技术在相同功率下仅能带来10%至15%的性能提升,或在相同速度下降低25%至30%的功耗。

然而,从技术的角度来看,这并不是一个死胡同。架构上的改进,包括不同的包装方法和3D布局,可以以数量级提升性能。即使缩小后的晶体管本身的运行速度并没有明显提高,但缩小后的晶体管仍然有助于在这些封装中装入更大的密度。

“多年来,我们一直被‘比摩尔还多’的话题轰炸,”设计IP营销总监汤姆·王(Tom Wong)说节奏.“但真的是面积减少、功率降低或晶体管性能改进(传统PPA)推动了这些讨论,还是硅经济学和光版印刷/设备的局限性导致我们碰壁?”事实证明,硅经济学和十字线尺寸的限制是推动颠覆的两大因素,这使得设计师必须寻找设计芯片的新方法,并转向新的架构。”

经济和十字线尺寸限制都是通过不同的包装方案和增加十字线尺寸来解决的,这允许更大的单个模具。台积电研发副总裁Doug Yu表示,由于采用了InFO(集成扇出)封装方法,刻线尺寸将增加1.7倍。此外,台积电计划在明年第一季度推出110 x 110 mm²的网线,将网线尺寸增加2.5倍。

所有这些都是必要的,因为把所有东西都放在一个模具上的成本持续上升。模块化允许芯片制造商基于平台类型的方法相对快速地定制芯片。CPU、GPU和FPGA芯片设计人员早在5年多以前就发现了这一点,并从那时起开始向多芯片分解实现迈进,并让中间体/封装来处理集成。这就是为什么死对死连接IP今天成为中心舞台的原因之一,王说。

“cpu、gpu和fpga都走上了芯片的道路,因为这些公司自己设计芯片(芯片),不需要依赖于商业芯片生态系统。他们可以利用基于芯片的设计所提供的优势,”Wong指出。包括cpu、gpu和fpga在内的多核设计可以从这种架构变化/趋势中受益。能够分离“核心计算”和高速I/ o的SoC设计也可以从中受益。人工智能加速soc和加密soc就是两个例子。数据中心交换机和结构,例如用于超大规模计算和云构建器的25.6Tb/s,也可以从这种基于芯片设计的架构变化中受益。这些设计可以复杂到200亿多个晶体管。”

到目前为止,这种方法已经被英特尔、AMD和Marvell等idm使用,每个idm都创建了自己的模块化方案和互连。因此,他们并没有制造一个芯片,并试图向广泛的客户推销它的好处,而是提供了一系列使用芯片的选项,在英特尔的案例中,提供了各种各样的连接选项,如高速网桥。

变化无处不在,或大或小
纵观所有这些变化往往是困难的,因为整个行业都在运动,尽管不一定以相同的速度或出于相同的原因。因此,当处理器和进程发生变化时,例如,内存就会远远落后。

此外,有些技术需要完全重新考虑,而另一些则需要保持不变。这一点在gpu上尤其明显,gpu一直是AI/ML训练的首选解决方案,因为它们便宜且可扩展。但它们并不是最节能的方法。

该公司产品管理和技术营销高级总监Kristof Beets说:“我们已经在带宽和功率方面看到了它。想象力的技术“所有这些不同的限制都在发挥作用。从GPU的角度来看,这是一个棘手的演变,因为很明显,GPU是巨大的数字处理器,显示器变得越来越大,设备变得越来越小。所以很多这样的问题一直困扰着我。有一段时期是蛮力的,这有点依赖于摩尔定律。我们的GPU翻倍了,这在一段时间内还可以,因为处理技术跟上了。但现在这种回报正在减少,所以虽然我们可以放下更多的逻辑,但我们基本上不能再打开它了,因为它消耗了太多的能量。所以蛮力法行不通。”

动态电压和频率缩放(DVFS)有助于降低电压,允许更大的gpu在更低的频率下运行。然而,即使这种方法也有局限性,因为在固定的功耗预算下,只能使用有限的GPU内核。Beets说:“这给了我们更好的每瓦FPS(每秒帧数),但即使这样,现在也开始放缓,因为泄漏再次上升。”“对于gpu来说,这就是光线追踪的有趣之处。这是一种摆脱暴力的方式。他们非常灵活。我们在人工智能和神经网络处理中也看到了同样的情况。这是完全一样的概念。这就是你真正看到的数量级的解决方案,通过考虑数据流,特定的操作,比GPU好10到20倍,所以这很有趣。它不像以前的固定函数处理那么糟糕。 We’re not back there yet. But some of it is definitely starting to return with more dedicated processing types.”

有许多方法可以提高伸缩性能。英特尔高级营销总监Roddy Urquhart表示:“在应用处理器、gpu、mcu、dsp等一些领域,我们已经有了相当通用的架构,利用摩尔定律做越来越多的事情。Codasip.“但现在有大量的想法尝试新颖的架构,新颖的结构,具有一系列的可编程性。在收缩阵列端,有些东西往往是硬连接的处理元素,或者它们的进程上传了固件,并将其置于静态状态一段时间。另一个极端是领域特定的过程,它们是高度可编程的。我看到了高度并行、高度流水线化、阵列式结构的创新回归,这非常适合不同类型的神经网络。另一方面,人们正在跳出固有的思维模式,走出MCU、GPU、DSP和应用处理器的藩篱,创造出更多的混合版本,以满足特定的需求。”

微架构
除了这些广泛的架构转变之外,还有微架构创新。在许多方面,这是一个分区问题,在一个更大的系统中,一些计算函数比其他函数具有优先级。这对性能和计算效率都有很大的影响。

Synopsys的Kogel说:“利用固有的并行性,应用程序应该映射到一组最佳的异构处理元素。”“为每个功能选择一个处理核心,提供最小所需的灵活性,从而获得尽可能高的计算效率。此外,内存体系结构的组织对性能和功率有非常大的影响。由于外部存储器访问成本高昂,数据应该保存在芯片存储器中,靠近数据被处理的地方。”

然而,这说起来容易做起来难,它需要多学科和越来越多的多维度规划。Kogel说:“管理复杂性并预测在具有分布式内存的异构多处理平台上运行的高度并行应用程序的动态效果是一个相当大的挑战。”“我们建议在开发过程的早期使用虚拟原型来定量分析架构权衡。这使得应用程序和实现团队的利益相关者能够在承诺实现规范之前进行协作。”

新的权衡
展望未来,如何在功率和性能之间进行权衡取决于市场。一些市场对成本非常敏感,所以他们还没有解决这个问题。与此同时,其他的对成本不那么敏感,对延迟更敏感。

“人们越来越没有耐心。你想尽快得到你想要的东西,”英特尔首席技术官Mike Mayberry在DARPA最近的电子复兴计划(ERI)峰会上的小组演讲中说。“但我们也看到了平衡的系统和数据附近的更多计算,这是我们看到的持续趋势之一。”

Mayberry指出,密度缩放没有硬性限制,但它将越来越多地包括Z轴。“我们还看到了新颖的cmos以外的器件,将支持异构架构。十年后,你会在货架上看到这些东西。”

除了沉积和蚀刻不同的材料外,英特尔和其他公司也在寻找增加设备的方法。多年来,人们一直在谈论定向自组装等方法。在某种程度上,这仍然是经济上可行的,但普遍的共识可能是在3nm之后。

除此之外,光子学作为一种以最小的热量在这些越来越密集的结构中移动大量数据的方式,开始获得一些动力。一种比较新颖的方法是利用光进行处理。LightMatter首席执行官尼克·哈里斯(Nick Harris)表示,光学器件消除了泄漏效应,从而降低了热量和更稳定的性能。这种方法的独特之处在于,光可以被分割成不同的波长,从而可以优先考虑不同的颜色。

哈里斯说:“100GHz的波长间隔非常小,我们可以容纳1000种颜色。”缺点是激光不能永远持续,所以需要有足够的冗余来允许这些系统在预期的生命周期内持续使用。

对于更传统的计算,流程节点选项的数量也在增加。晶圆代工厂提供中间节点,可以在不完全重新设计的情况下提高性能或功率。例如,台积电(TSMC)的N4工艺将于明年年底进入风险生产。台积电首席执行官魏则西在一次演示中表示,在N5 (5nm)和N4中使用的IP将是兼容的,这使得公司可以通过最小的重新设计来提高密度和降低功耗。

尽管如此,选择的数量还是令人眼花缭乱。除了不同的节点编号外,也有不同的低功耗和高性能的工艺选项。最重要的是,不同的衬底材料开始受到关注,包括用于功率晶体管的碳化硅和氮化镓,以及用于低成本、低功耗应用的绝缘体上硅。

所有这些都对用于防止失败的设计规则产生了重大影响。Mentor公司的霍根说:“如果你在设计一个芯片,你不知道它将如何使用或放置。“你不知道它是否会成为漫威宇宙的续集,所以你必须想办法以一种周到的方式做到这一点。你需要保护它免受电磁效应和其他潜在问题的影响。”

而且,由于芯片有望在更长的时间内正常工作——在汽车领域,前置节点逻辑可能长达18年——所有这些都需要在老化的背景下完成。这可能会变得极其复杂,特别是在多芯片包中。

“你需要考虑不同刺激和场景下的阈值变化,”英特尔半导体事业部营销副总裁兼首席策略师Vic Kulkarni说有限元分析软件.“你可以对寄存器进行精确的分析,但如果Vdd和Vt都没有下降,就没有多少剩余空间了。你还需要考虑电压力过大之类的问题。晶圆厂不愿意承担这个任务。”

权衡的范围从功率、性能、成本到服务质量。

Imagination的Beets说:“我们过去总是使用无损压缩。“大约在一两年前,我们也引入了有损,所以我们可以在质量上进行权衡。在gpu中,我们开始看到质量与成本之间的全面权衡,有损压缩可以降低质量,这也节省了带宽和功耗。在GPU处理中,我们开始看到同样的事情,那就是可变速率着色。这基本上是当你看一个视频时,你会说你真正关心的是脸,你想要完整的细节,所以背景不重要。游戏本质上也是如此。例如,在赛车游戏中,汽车非常清晰,有很多细节,但其余部分都有运动模糊。”

在精确度方面也存在权衡。较低的精度可以大大加快处理速度,而更稀疏的算法可以编写得更不精确,无论是16位精度还是1位精度。但是这种精度也可以由硬件和固件控制,它可以对整体系统性能产生很大的影响,其中一些功能比其他功能更精确。

结论
在摩尔定律的前40年左右,功率、性能和面积的改进对于大多数应用来说已经足够了,数据的增长通常是可以通过经典缩放来管理的。在90nm后,经典鳞片开始出现压力迹象。所以,这句话已经在墙上写了一段时间了,但它并没有被忽视。

然而,令人惊讶的是,仍有许多方法可以大幅提高性能、降低功耗并节省成本。工程团队正在以新的和有趣的方式进行创新。几十年来对当时看似晦涩的主题或切题的研究现在正在取得回报,而且还有更多的研究正在进行中。

有关的故事
EUV在3nm及以下的不确定未来
从技术的角度来看,在未来的节点上制造芯片是可能的,但这并不是唯一的考虑。
下一个高级软件包
新的方法的目标是更好的性能,更大的灵活性,对一些人来说,更低的成本。
小纸片的好与坏
idm利用芯片模型,其他人仍在研究。
主流芯片架构的重大变化(2018年进行比较)
随着设备规模效益的下降,支持人工智能的系统正在被设计成在本地处理更多数据。



留下回复


(注:此名称将公开显示)

Baidu