中文 英语

处理器架构的新方法

灵活性和定制现在是优化性能和功率的关键元素。

受欢迎程度

处理器供应商开始强调微架构的改进和数据移动,而不是流程节点的扩展,这为终端用户试图实现的目标设备获得更大的性能提升奠定了基础。

这些变化是对领域特异性的认识,以及根据独特的工作负载调整或适应设计的能力,现在是提高性能和提高能源效率的最佳方式。虽然流程缩减将继续提供一些好处——通常在性能和功率方面的改进不超过15%到20%——但很明显,仅仅依靠这些改进不再是成功的秘诀。定制和智能优化现在是必不可少的,对于大多数市场来说,通用的处理器策略已经过时了。

“过去几年发生了两件事,”公司董事长兼联合首席执行官阿尔特•德Geus表示Synopsys对此.“一个是数据量大幅增加。事实上,自2018年以来,机器创造的数据使人类创造的数据相形见绌。与此同时,机器学习刚刚达到了计算足够好的地步。现在你可以用它做一些很酷的事情了。这并非没有引起注意。每个垂直市场现在都在说,‘我有很多数据。如果我能用它做点聪明的事呢。“获取大量数据,对垂直市场进行哪怕是微小的改变,以提高其效率,这种做法会产生非常大的经济影响。”瑞士信贷(Credit Suisse)估计,智能一切的机会将超过40万亿美元。 So people are experimenting with this, and the minute they see a little bit of success, the next question is, ‘How come your chips are so darn slow?'”

然而,这给处理器供应商带来了一些严峻的挑战。他们需要在设计中包含足够的灵活性,以赢得新客户并留住现有客户,但他们也需要实现规模经济。此外,他们还必须向客户证明这些新设计的好处。仅仅因为一个芯片在基准测试中优于另一个,并不意味着它在特定的应用程序或用例中表现更好。仅仅因为它在某个时间点运行得更快或更高效,并不意味着它在未来会继续这样做。因此,处理器供应商已经开始绞尽脑汁,如何让一种芯片比另一种芯片更适合特定的工作,以及如何大规模定制这些设备,使其价格合理并有利可图。

今年2021年热芯片大会上的演讲与过去几年的重点非常不同。微架构是获得额外关注的几个领域之一,作为实现性能和功耗改进的一种方式,因为它们提高了芯片架构实际使用的抽象级别。这反过来又使定制变得更容易。微架构本质上是特定硬件设计的实现细节。而不是改变硬件架构,为每个应用程序创建一个新的芯片,微架构可以用来根据需要对处理作业进行优先级和分区。这可以包括从动态可配置的数据路径到更智能的缓存和优化的分支预测的所有内容-当然,在底层架构的范围内。

可编程逻辑供应商多年来一直采用这类方法,以缩小与ASIC的性能差距,但ASIC供应商过去并没有充分利用它们。这是改变。来自公司的新芯片架构的卖点英特尔目前,美国AMD、IBM和Arm等公司的前景与过去几年相比已经大不相同。

英特尔的新Alder Lake架构就是一个很好的例子。它利用了两种不同类型的内核,一种针对单线程性能进行了优化,另一种针对多线程性能进行了优化,并基于在任何特定时刻哪个最适合特定应用程序而进行动态调度。

英特尔研究员Efraim Rotem在本周的热芯片2021大会上表示:“这两个内核在架构上是等同的,具有不同的微架构和不同的设计点。”“性能目标是通过构建更广泛、更深入、更智能的机器来推动低延迟、单线程性能的极限。它建立在一个称为终端数据的大足迹上,设计点是高速。高效核心设计用于构建吞吐量机器,并提供最高效的计算密度。”

根据应用程序的不同,这些核心可以混合在不同的配置中。但我们的目标是开始根据应用程序和将在其上运行的软件划分处理体系结构。从表面上看,该策略类似于英特尔老的386/387(大约1986年),将整数计算和浮点计算分开,尽管从那时起发生了很多变化。英特尔有一个新的操作系统调度器来监控每个线程和核心的运行时指令组合,以及根据热条件和功率需求动态调整处理的能力。不同的核心本身更智能,控制机制根据数据量和优先级调整混合。


图1:Alder Lake概念性方法。资料来源:Intel/Hot Chips 2021

AMD在其Zen 3微架构中使用了一些相同的方法,再次为特定的应用程序(如游戏)分离整数和浮点数据流。AMD还增加了分支预测器、调度器和指令获取/解码。

AMD的微处理器架构师Mark Evers在Hot Chips 2021年的一次演示中说:“Zen 3支持同步多线程,当有额外的线程可用时,可以在节能方面获得额外的性能。”“通过管道的核心指令开始于最先进的分支预测器,向核心前端提供一系列地址。然后从32 KB的I-Cache中提取和解码指令,每个周期4条指令,或者从Op-cache中每个周期8个操作,Op-cache可以容纳4000条指令。结果的操作被放置到Op Queue中,然后每个周期分配最多6个操作到整数或浮点调度器。为了执行这些操作,有四个整数单位加上专门的分支机构和商店单位。”

虽然2020年底推出的Zen 3微架构是为高性能游戏而设计的,但AMD决定不迁移到最新的流程节点。埃弗斯说:“这一切都是为了向用户提供重要的性能。“由于我们保持了与上一代Zen 2相同的7nm技术,这些改进都归功于新的架构和物理设计优化。19%的IPC(每周期指令)提升,每个核访问更大部分的L3缓存,堆栈中更高的频率,以及统一的8核复合物,加在一起具有出色的游戏性能。加起来,游戏平均提高了26%,有些游戏甚至高达50%。”


图2:AMD Zen 3架构/微架构。来源:AMD/Hot Chips 2021

在整个处理器市场上,同样的主题有许多不同的版本。Arm的新Neoverse处理器IP架构利用了台积电的5nm工艺,但也充分利用了微架构的变化,以最大限度地提高每瓦性能。Arm已经在低功耗计算领域建立了良好的声誉,尤其是在手机领域。该公司目前正在大举进军其他市场,比如边缘服务器,这些市场没有稳固的市场领导者。Arm表示,基于微架构的改进,IPC性能提高了40%。

这种改进部分来自于更好的分支预测,这类似于谷歌搜索中的建议。处理器世界的不同之处在于精度对性能和能源效率都有很大的影响。

“当核心试图跟上具有许多难以预测的分支的大型应用程序时,性能往往会损失,”安德里亚·佩莱格里尼(Andrea Pellegrini)说手臂的基础设施业务线。“版本1 (N1)的改进是更高的带宽和更低的读取和解码逻辑延迟。版本2 (N2)可以获取两倍于版本1的指令数量。”

佩莱格里尼指出,N2是在5纳米时显影的,而N1是在7纳米时显影的。但最大的改进来自各种其他技术,如预取、智能缓存、多芯片实现、内存分区和扩展,以及相干加速器。该架构还依赖于动态内存带宽管理,因此当内存带宽发生争用时,设备会调整内存预取的攻击性(见下图3)。


图3:内存预取监控与调整。来源:手臂

IBM的Z架构是第一个强调更高频率作为区别的芯片。由于功率和热的限制,处理器制造商多年来一直在3 GHz和4 GHz范围内停滞不前。IBM杰出工程师、处理器首席架构师Christian Jacobi表示,Z处理器的5ghz失序管道具有新的分支预测方案、更大更快的缓存和嵌入式加速器。

IBM的体系结构完全是关于数据吞吐量和数据处理速度的。数据路径大于600gb /s,允许服务器以小于1毫秒的延迟对超过350万条路径执行推理。所有这些都由智能数据移动器和格式化器管理,允许芯片优化性能,并将数据移动到任何可以优化处理的地方。


图4:IBM的新型Z处理器。资料来源:IBM/Hot Chips 2021

更快地移动数据对于提高性能至关重要,管理数据移动需要自己的体系结构。但是,更快地移动更少的数据是实现相同目标的另一种方法。Juanjo Noguera,工程总监赛灵思公司他描述了新的Versal AI Edge架构,其中四个矩阵乘法内核的结果可以通过高速连接组合以产生单个输出。

诺格拉说:“最终,我们将只产生一个输出矩阵。”“核心具有进行矢量运算的能力,在从流中读取数据时计算输入数据,然后将其推送到输出流。也有能力进行数据多类型转换来进行多个输出。因此,使用同样的方法,我们可以让四条链并行运行以产生最终输出结果。每个tile都有自己的独立数据,但我们可以只处理一次权重,并多次强制转换它n次。这大大减少了这种架构所需的内存带宽。”

电源/性能改进的其他选项
数据的智能和快速移动是架构师关注的一个重大转变。但这并不是唯一的方法。移动更短的距离也会对表现产生很大的影响。最新的处理器架构包括从池内存到虚拟缓存的所有内容。


图5:IBM的L2缓存与双向环互连。资料来源:IBM/Hot Chips 2021

关键是缩短内存和处理器之间的距离。L2缓存是非常快的内存,但是跨多个核使用该缓存并保持所有内容同步是非常困难的。实现这一点,并通过智能地管理流入和流出的数据来共享缓存,是加快数据移动的有效方法。它还可以帮助芯片制造商为特定应用定制芯片。

这在经济方面也很重要。商业处理器制造商面临的挑战是如何在不产生一次性设计的情况下在架构中构建足够的定制。谷歌、Facebook和亚马逊等系统公司一直在开发自己的定制芯片,特别是用于数据中心。最近,大众和特斯拉等汽车原始设备制造商也在为汽车开发同样的芯片。如果半导体历史重演,处理器行业将在某个时候迎头赶上,以更低的价格提供具有竞争力的处理器。

处理器供应商的目标是充分缩小差距,以便能够吸引系统公司重新使用商业开发的处理器,并能够使用相同的架构平台来开拓新的市场,例如一系列边缘服务器。实现这一目标的一种方法是使用定制的加速器芯片,可以插入到该架构中,几乎就像乐高积木一样,并加载安全功能,以便安全的赌注是商用硅。

Chiplets(又名瓷砖)提供了一种解决方案。AMD、英特尔和Marvell都成功地部署了芯片,美国政府也一直在推动军用/航空硬件的芯片战略,以降低设计成本。这里的挑战是开发标准接口和方法来表征芯片——特别是定制加速器——这样它们就可以集成到一个包中。

然而,到目前为止,这些芯片都是由同一家公司开发的,它们将它们集成到一个封装中。标准化接口将为第三方芯片打开大门,包括RISC-V和其他专用加速器、安全模块,以及Flex Logix等公司的可编程加速器。

整个芯片行业都采用了某种形式的先进封装来实现这一目标。osat现在提供了多种选择,从日益复杂的扇出到2.5D和3D-IC实现。围绕这些技术的开发数量正在爆炸式增长。但挑战在于开发一种简单的方法将它们连接在一起,所有领先的铸造厂都在研究这个问题。

英特尔正在使用一种桥接技术,称为嵌入式多模互连桥接(EMIB),以及插入器,据报道,三星正在开发类似的方法。与此同时,台积电正致力于从嵌入式芯片到前端芯片,以及2.5D和3D-IC的所有工作。

结论
根据英特尔的流程路线图,至少还有5个节点将继续扩展。但是每个新节点的好处都是有限的,无论是从每瓦性能还是对终端客户的价值来看。越来越重要的是为客户开发可以构建在架构平台上的定制解决方案的能力。

朝着更快更好的片上数据管理和更复杂的微架构的推进是这个方向的两个关键元素,所有主要的处理器供应商现在都在采用这种方法。最终的结果将是设备的运行速度显著加快,每瓦性能大大提高——在某些情况下,速度会快几个数量级。但针对不同终端市场的设备之间的差异也会越来越大,每种设备都有独特的需求和要求,这可能会使这一市场在未来几年成为一个非常有趣的市场。

相关的
英特尔雄心勃勃的路线图内幕
四年五个工艺节点,高na EUV, 3d - ic,芯片,混合键合等等。
在一个“无法无天”的行业设计芯片
出现了数量惊人的选择,但谁是最好的往往是不清楚的。
转向数据驱动的芯片架构
重新思考如何提高半导体的性能和降低功耗。



留下回复


(注:此名称将公开显示)

Baidu