中文 英语

芯片,更快的互联,更高的效率

为什么英特尔、AMD、Arm和IBM专注于架构、微架构和功能变化。

受欢迎程度

大型芯片制造商正在转向架构改进,比如芯片、更快的芯片内和芯片外吞吐量,以及在每个操作或周期中集中更多的工作,以提高处理速度和效率。

总的来说,这代表着主要芯片公司的方向发生了重大转变。它们都在努力应对处理需求的大幅增长,而传统方法无法提供足够的改进功率、性能和面积。自28纳米技术以来,在某些情况下,这种技术的规模效益一直在下降。与此同时,越来越多的数据从新设备、新应用程序中收集,并扩散传感器在任何地方,都需要用相同或更少的能量更快地处理。

对于芯片制造商来说,这相当于一场完美风暴,过去它们曾利用投机执行等方法来扩大规模的好处。但投机性执行已被证明会产生安全漏洞,仅仅缩小功能不再能提供30%到50%的性能改进。今天的数字接近20%,即使是这样也需要新的材料和结构。

与此同时,大型芯片制造商正面临谷歌、亚马逊(Amazon)和Facebook等公司对其关键市场之一——巨型数据中心的入侵。此外,他们正在受到挑战人工智能/机器学习在市场和边缘,大量的初创公司正在开发专门的加速器,这些加速器有望通过架构的变化实现数量级的改进。

大型芯片制造商没有试图对抗这一趋势,而是开始拥抱它。例如,AMD已经推出了Zen 2架构,该架构依赖于他们和其他公司制造的芯片的组合,具有高速芯片到芯片的互连和可以调整的优先级方案,以便数据可以在一个方向或另一个方向上更快地移动。

AMD客户产品首席架构师丹·布维耶(Dan Bouvier)在大会上表示热片会议认为,小模具将提高成品率。但他指出,晶片也可以用于将模具尺寸增加到1000毫米2这是通过使用一个通用的互连(AMD的Infinity fabric),并将所有这些组件放在一个基板上,比十字线的尺寸更大。这种互连也可以用来连接在不同工艺节点上开发的芯片,这取决于什么对特定功能最有意义。


图1:AMD的芯片架构。来源:AMD/Hot Chips

英特尔的战略主要依赖于chiplets它使用各种方法进行连接,包括其内部开发的芯片到芯片桥接(嵌入式多模互连桥接,或EMIB)。但该公司也一直在研究内存访问和存储问题。该解决方案的一部分涉及持久内存,它有助于弥合DRAM和固态硬盘之间的差距。

一段时间以来,英特尔一直在推出一种名为3D XPoint的持久内存类型。基于相变存储技术,英特尔将3D XPoint设备集成到自己的ssd和dimm中,从而加快了这些系统的操作速度。

“最大的挑战之一是,你已经有了所有需要处理的数据,但空间有限,”百度高级首席工程师Lily Looi表示英特尔.“在过去几年里,数据出现了爆炸式增长,有两件事发生了变化。首先,纳秒很重要,所以需要更大的容量。第二件事是你需要一个持久的功能,这样即使你关掉电源,数据仍然在那里。但是你不需要保存所有的数据。你可能只需要保存一个块甚至几千字节的数据,这是更有效的。”


图2:在哪里存储指数级的数据。资料来源:Intel/Hot Chips

聪明的权衡
不过,更大的芯片和更快的互连速度并不是实现更好性能的唯一途径。有一大堆问题需要解决,这些问题多年来都没有认真地重新构建。

例如,Arm推出了Neoverse N1架构,该架构显著提高了分支预测的准确性——基本上相当于搜索中的预取。Arm还在继续推进以更少的能量做更多的事情,通过连贯的网状网络将IP块连接在一起,允许处理器根据特定应用的需求调整大小。

Arm战略的关键是更大的第2级缓存和上下文切换,安德烈·佩莱格里尼(Andrea Pellegrini)是Arm的高级首席工程师手臂比以前的方法快2.5倍。他说:“我们还看到分支机构的错误预测减少了7倍。”Arm还专注于通过降低缓存丢失率来减少指令占用,佩莱格里尼表示,缓存丢失率已经下降了1.4倍。与此同时,L2访问减少了2.25倍。

这是看待处理器效率和每瓦性能的另一种方式。虽然大多数处理器公司都是从在相同的功率预算下做更多事情的角度出发,但其他公司正在考虑用更少的功率做更多事情,这对带电池的设备来说很重要。这包括智能手机,但也包括为电动汽车和机器人开发的芯片。

Arm还将使用其网状网络方法添加针对特定数据类型定制的第三方加速器。


图3:Arm的可定制Neoverse架构。来源:Arm/Hot Chips

与此同时,IBM引入了一种既简单又非常不同的体系结构。IBM的目标之一是假设数据包何时到达,这实际上将预取概念提升到更高的抽象级别。理解如何做出这些假设是非常困难的,因为它有效地提前将使用模型应用到架构中。

IBM的方法是使用最可能的芯片配置,预先进行权衡并设置限制。根据电力系统硬件架构师Jeff Stuecheli的说法,这使得它可以巩固物理层的数量IBM部分数据通过PCIe Gen 4运行,其余数据通过25G SerDes运行。Stuecheli说:“这是更有效的电力和区域效率。”该公司还做了一些事情,比如转向不对称架构,这意味着一个加速器的状态不会影响另一个加速器的运行。“我们想从加速器中隐藏状态表。”


图4:IBM对数据吞吐量的重视。资料来源:IBM/Hot Chips

连接各个部分
从这个角度来看,所有主要的芯片制造商都在他们的目标市场上解决类似的问题。通过通用处理器和定制加速器的组合,它们正在提高每瓦的性能,在许多情况下,它们使从一个市场到另一个市场更容易、更快速地更换模块成为可能,并且随着算法的更新。他们还提高了芯片内数据、芯片外数据到内存的吞吐量,并优先考虑不同类型数据的移动。

这些方法中的许多都不是新想法,但一些实现这一切的技术在过去是不存在的。

“创建一个通用的PHY来启用加速器是正在发生的关键事情之一,”Stuart Fiske,高级设计工程架构师节奏.“你还可以看到,处理器并没有变得更简单。很多这样的公司都在尝试创建加速器的接口。这并不能解决复杂性问题。这仍然是一个数年的设计周期,没有其他办法。但你可以让加速器适应最新的神经网络。”

关键是平衡所有这些组件的集成,并具有足够的灵活性来进行更改。实际上,所有这些芯片制造商都在设计多芯片平台,可以为特定市场和用例定制,同时优化每瓦性能并提高数据吞吐量。

“在时钟速度方面,设计正在碰壁,”该公司产品和技术营销主管罗兰·霍布斯(Loren Hobbs)说Silexica.“前进的方向是让每个时钟周期尽可能高效。随着多核异构多处理器的加入,这加速了这些芯片的复杂性。您可以组合所有这些芯片来提高处理能力,但是您需要工具来帮助分发和分析它。您必须映射代码库,这是极其复杂的。它需要静态、动态和上下文分析。”

这里的共同点是数据量不断增长,无论是在边缘还是在云中。数据在哪里被处理以及数据移动的速度是该体系结构的关键部分。

“每个人都在与CCIX作斗争,”k·查尔斯·亚纳克(K. Charles Janac)说Arteris IP.“如果你有一个加速器和两个相干的芯片,就会有太多的极端情况让它难以轻松工作。但是现在你可以使用3D互连将一个平面CPU和一个平面I/O连接在一起。这看起来就像一个软件系统,你在芯片上的网络和不同的芯片之间有芯片间的连接。这样你就可以在两个骰子上支持非连贯和连贯的读写。这让互联变得更有价值,但也让互联变得更复杂。”

事实上,这就是为什么这些体系结构已经在工作了一段时间的原因之一。事实证明,让所有的部分一起工作比任何人最初想象的要困难得多。

“内存控制器和NoC必须更加紧密地集成在一起,”Janac说。“问题在于,两家公司都不了解整个芯片的QoS,现在已经没有任何独立的内存控制器公司了。但是内存流量必须更好地集成才能使其工作。”

要让芯片市场真正起飞,还需要有开放的标准。

“目前还没有连接小芯片的标准,”公司营销副总裁史蒂夫·门索尔说Achronix.“问题在于,你必须能够与他们交谈。所以你应该能够为一个插座开发一个芯片,并有一个链路和协议栈来支持它。有来自AMD和Intel的专有解决方案。还有一些标准的解决方案正在开发中。如果我构建一个ASIC并购买芯片,我想要一个标准的解决方案,这样我就可以独立地构建该芯片。这是这种模式的基本要求。”

尽管如此,它确实为基于不同isa(如RISC-V)的加速器打开了大门。

该公司营销副总裁克里斯•琼斯表示:“这是小型轻量化硬件加速器的新机遇Codasip.“创业公司制造芯片的开放接口可能会为半导体带来另一个繁荣周期,这将一直持续到完全封装。关于这一点仍然存在一些问题,例如谁最终负责整个接口的测试,以及如何在接口退出后进行测试。我们还需要看看芯片接口是什么样的,它们是会标准化还是保持专有。但这无疑为更多验证IP、仿真和模拟提供了新的机会。”

更换组件
目前尚不清楚的是,这些架构中还可以改变什么。本周介绍的大多数设计都是平面的,但也可以选择将其中一些设计推到Z轴上。

例如,SerDes会给设计增加延迟,但使用先进的打包技术也可以实现同样的效果。台积电的CoWoS(晶圆芯片基板)和InFO MS(集成风扇输出基板内存)就是这样的两种选择。eSilicon商业和企业发展副总裁Patrick Soheili表示,该公司刚刚在UMC的介入下开发了一种CoWoS类型的方法。

“你可以把它拆开,并把它带到一个不同的抽象层次,”Soheili说。“如果你看看其中一些架构,就会发现,拥有很多很少是低效的静态存储器如果你有大量的数据流经它,当你处理大内存时效率会更高。这听起来可能违反直觉,但我们发现,更大的内存更有效,特别是对于人工智能类型的应用程序。”

接下来是什么
所有这些方法的市场刚刚起步。现在的关键是想办法在这些不同的架构中建立可重复性和可靠性,这样它们就可以用于汽车或工业等安全关键应用程序,以及当今各种各样的终端市场,这些市场充斥着各种类型的数据。

使这些新体系结构如此引人注目的是能够为特定的应用程序定制它们,利用作为这种定制基础的体系结构。所有的处理器供应商都在采用这种类型的架构,从FPGA供应商到英伟达这样的公司,英伟达在创纪录的六个月内推出了一种新的芯片架构。但显而易见的是,在未来,随着设备的修改和更新,该行业将需要更多的工具、更多的数据分析,以及对潜在交互的更好理解。

这只是一个转变的开始,最终将涉及整个半导体供应链。虽然扩展还将继续,但在处理器领域,它只是一个长长的清单上的一个额外的按钮,现在这个清单包括架构、封装、材料和工作负载优化。架构师现在是变化的驱动者,他们中的大多数人预计架构变化将随着时间的推移而加速摩尔定律减慢。一年的变化太大了。

有关的故事
主流芯片架构的巨大变化
随着设备规模效益的下降,支持人工智能的系统正在被设计成在本地处理更多数据。
先进的包装选择增加
但将多个芯片装入一个封装仍然困难且昂贵。
下一个新记忆
研发部门的新一代存储器可能会对未来的计算架构产生重大影响。
尽管存在权衡,但芯片组势头仍在增长
预特征瓷砖可以推动摩尔定律的发展,但它并不像看起来那么简单。
在小纸片上开始工作
联盟寻求方法来确保强化IP的互操作性,以降低成本和上市时间,但这并不容易。
小纸片的案例
高级包装中的问题。



1评论

约翰·里尔登 说:

写好。

留下回复


(注:此名称将公开显示)

Baidu