中文 英语

IC架构的转变,oem缩小了他们的关注点

随着芯片公司定制设计,可能出现的陷阱越来越多。更紧密的合作和收购可能会有所帮助。

受欢迎程度

流程扩展带来的收益递减,再加上无处不在的连接和数据的指数级增长,正在推动芯片设计方式、预期功能以及预期速度的广泛变化。

在过去,性能、功率和成本之间的权衡主要由大型原始设备制造商在整个行业的扩展路线图范围内定义。芯片制造商设计芯片是为了满足这些原始设备制造商设定的狭窄规格。但随着摩尔定律变慢,随着越来越多的传感器和电子设备在各地产生越来越多的数据,设计目标和实现它们的手段正在发生变化。一些最大的系统公司已经在内部进行芯片设计,以专注于特定的数据类型和用例。与此同时,传统芯片制造商正在创建灵活的架构,可以重复使用,易于修改,适用于更广泛的应用。

在这种新的设计方案中,需要处理数据的速度和结果的准确性可能会有很大差异。根据具体情况——例如,它是用于安全应用还是关键任务应用,或者它是否靠近其他可能产生热量或噪音的组件——架构师可以权衡原始性能、每瓦性能和总拥有成本(包括可靠性和安全性)。这又决定了包的类型、内存、布局以及需要多少冗余。它还增加了新的担忧,比如跨系统的系统的时钟同步,包中组件的不同老化率,以及由于行业对不同部件如何组合以及可能出现的问题了解不足而产生的未知。

随着这些设计的推出,出现了一些创新的定制方法,以及一些一致的主题。在最近的Hot Chips 34大会上,NVIDIA高级首席工程师Jack Choquette预览了该公司新的800亿晶体管GPU芯片。新的体系结构考虑了空间局部性(允许可用的处理元素处理来自不同位置的数据)和时间局部性(多个内核可以对数据进行操作)。其目标是允许更多块同步或异步地操作数据片段,以提高效率和速度。这与现有的方法形成了鲜明的对比,在现有方法中,所有线程都必须等待其他数据到达才能开始处理。


图1:线程块集群,允许在相邻的多处理器上共同调度一些处理。资料来源:NVIDIA/Hot Chips

AMD高级研究员Alan Smith同样在会议上介绍了“工作负载优化计算架构”。在AMD的设计中,数据路径被拓宽,用于数据转发和重用。与NVIDIA的架构一样,其目标是消除数据路径上的瓶颈,简化操作,并提高各种计算元素的利用率。为了提高性能,AMD不再需要不断复制来备份内存,这大大减少了数据移动。

AMD的新Instinct芯片包括一个灵活的高速I/O和一个连接各种计算元件的2.5D高架桥。高速网桥最初是由英特尔公司推出的嵌入式多模互连网桥(EMIB),用于使两个或多个芯片合二为一。苹果公司使用了这种方法,将两个基于arm的M1 soc连接起来,创建了M1 Ultra芯片。


图2:AMD的带扇出桥的多模方法。来源:AMD/Hot Chips

所有这些架构都比以前的版本更灵活,芯片/瓦片方法为大型芯片制造商提供了一种定制芯片的方法,同时仍然服务于广泛的客户基础。与此同时,谷歌、Meta和阿里巴巴等系统公司正在更进一步,从头开始设计专门针对其数据类型和处理目标进行调整的芯片。

特斯拉的数据中心芯片架构就是一个很好的例子。特斯拉低压和硅工程副总裁彼得·班农(Peter Bannon)在最近的台积电技术研讨会(TSMC Tech Symposium)上发表演讲时表示:“在人工智能革命的早期阶段,计算需求大致符合摩尔定律。”“但在过去的五年里,这种趋势发生了明显的变化,计算需求每三四个月就会翻一番,因为人们已经找到了如何训练越来越大的模型,从而继续提供越来越好的结果。”

班农说,特斯拉的设计团队设定了一个扩大规模的目标,“对机器的大小没有实际限制”。“当时的想法是,‘如果机器不够大,不适合某个型号,我们就把机器变大,让它更大。“我们希望能够利用多个级别的并行性——训练级别的数据和模型级别的并行性,以及训练卷积和矩阵乘法时所做的固有操作中的并行性。我们希望它是一个完全可编程和灵活的硬件。”

有什么不同
asic一直是定制化的,但在每一个新的工艺节点上,成本都在上升,只有智能手机或个人电脑等大批量应用才足以收回设计和制造成本。越来越多的系统公司通过使用他们内部设计的芯片来消化不断上升的成本,他们正在寻求在更长的时间内扩展这些定制架构。

为了从这些设计中获得更高的每瓦性能,他们还针对特定的软件功能优化芯片,以及软件如何利用硬件——这是一个复杂且经常迭代的过程,需要通过定期的软件更新进行持续的微调。例如,在数据中心的情况下,这些芯片可以提高每瓦的性能并运行得更冷,这还有一个额外的好处,即降低为服务器供电和冷却机架的电力成本。

还有其他的考虑。其中包括:

  • 预计更多的设备将作为多芯片或多设备系统的一部分,通常包括AI/ML的元素。
  • 为了节省功耗和成本,设计团队根据应用程序优先考虑不同的功能,然后根据特定的设计目标将多个芯片打包在一起或划分单个SoC。
  • 随着越来越多的芯片制造商采用芯片组方法,他们需要考虑关键和非关键数据路径的混合。这涉及到从包装中的噪音考虑到模具移位,由于这些包装中不同材料引起的热膨胀系数,以及组件本身的工艺变化。虽然Arm、Synopsys (ARC处理器)等公司以及越来越多的RISC-V供应商都在彻底地描述他们的IP,但角落案例和潜在交互的数量正在增长。

所有这些都使设计、验证和调试过程变得更加困难,如果对可能出现异常的地方缺乏足够的量和知识,就会在制造过程中产生问题。这就解释了为什么越来越多的EDA、IP、测试/分析和安全公司开始提供服务,以补充内部设计团队的工作。

英特尔公司执行副总裁Sailesh Chittipeddi表示:“我们不再需要设计一个CPU,让它在不考虑开销的情况下,对每个工作负载执行x、y和z功能瑞萨.“这就是为什么所有这些公司现在都变得更加垂直。他们正在推动他们需要的解决方案。这包括系统层面的人工智能。它包括电气和机械功能之间的相互作用,直到你放置特定连接器的位置。这也促使更多CAD公司进入系统级支持和系统级设计领域。”

从手机、汽车到工业应用,越来越多的垂直市场都在发生这种转变,随着芯片制造商寻求将硬件定位于广泛的新市场,这种转变正在推动一波远远不受关注的小型收购。例如,瑞萨在6月份收购了Reality Analytics,目的是为各种工业细分市场创建人工智能模型。

Chittipeddi说:“这项技术可以用来观察系统中的振动,并预测某个特定部件何时会发生故障。”“以采矿为例,如果钻头坏了,就会引发大量问题。我们可以将这些模型导入到我们的mcu上,用于控制这些系统。”

谁做什么
然而,特定于领域的解决方案增加了EDA公司的压力,需要找出哪些共性可以自动化。这对于在单个工艺节点上开发的平面芯片来说要容易得多。但随着越来越多的市场实现数字化——无论是汽车、工业、军事/航空、商业还是消费——它们的目标正变得越来越不同。

这种差异只会随着在不同工艺节点上开发的芯片为定制包开发而增长,这些定制包可能基于从扇出的支柱到完整的3D-IC实现的一切。在某些情况下,甚至可能同时存在2.5D和3d - ic,西门子EDA将其标记为5.5D。

对于EDA和IP公司来说,好消息是这大大增加了对仿真、仿真、原型和建模的需求。大型系统供应商也一直在向EDA供应商施压,要求他们将更多的系统公司的设计流程自动化,但没有足够的数量来保证投资。取而代之的是,系统公司已经与EDA和IP公司接触,以提供专家服务,从事务性关系转变为更深入的合作关系,并让EDA公司更深入地了解各种工具是如何使用的,以及可以培育新机会的漏洞在哪里。

“许多新玩家更加垂直整合,所以他们更多地在内部做事情,”Niels Faché说,副总裁兼设计和模拟总经理Keysight技术.“人们对系统级模拟的兴趣越来越大,公司内部和公司之间对协作工作流的需求也越来越大。我们在设计中也看到了更多的迭代。所以你有一个开发团队,一个质量团队,你不断更新设计。”

对于为原始设备制造商设计芯片的芯片公司来说,这只是挑战的一部分。Faché表示:“如果你看看汽车市场,就会发现芯片组的设计正在偏离需求。”“在初始阶段,芯片公司可能会用软件构建一个参考设计,并设定它将如何使用。然后OEM将寻求优化。这将推动传统食物链的合作。例如,如果你正在开发一个雷达芯片,它不仅仅是一个雷达分系统。它是更大技术堆栈背景下的雷达。”

该堆栈可能包括射频包、天线和接收器,而OEM则使用EDA构建无线电。

特定于应用程序的vs.通用的
对设计团队来说,一个巨大的挑战是,越来越多的设计是前置的。而不仅仅是创建芯片架构,然后在设计过程中解决细节问题,更多的问题需要在架构级别上得到解决。

“有一个案例是,一家芯片公司生产的芯片耗电过多,OEM很不高兴,”英特尔执行副总裁Joe Sawicki说西门子数字工业软件.“但仅仅运行应用程序是不可能知道的。人工智能使这个问题变得更大,因为这不仅仅是软件的问题。现在你有了所有这些推论。如果你不关心延迟,你可以在云端安装一个通用芯片,你只需与云端通信并取回数据。但如果你有实时的东西,它需要立即响应,你就不能承受这种延迟,你想要低功耗。所以,至少对于加速器,你想要定制设计。”

戈登·库珀,产品营销经理Synopsys对此表示同意。“如果你在使用人工智能,它是100%被使用,还是只是一种享受?如果我只想说我的芯片上有人工智能,也许我只需要用DSP来做人工智能,”他说。“这是一种权衡,这取决于环境。如果你想要100%成熟的AI,也许你需要添加外部IP或额外的IP。”

人工智能的最大挑战之一是保持设备的最新状态,因为算法在不断更新。如果设计是一次性的,并且所有东西都针对一个或多个算法进行优化,那么这将变得更加困难。因此,虽然体系结构需要在性能方面具有可伸缩性,但它们也需要随着时间的推移以及在系统中其他组件的上下文中具有可伸缩性。

软件更新会对时钟造成严重破坏。英特尔首席执行官Mo Faisal表示:“你在芯片上同步质量方面所做的任何事情都会影响延迟、性能、功耗和上市时间Movellus他在2022年人工智能硬件峰会上的一次演讲中说。“人们正在制造越来越大的芯片——十字线大小的芯片——你可以优化核心,并确保它能很好地与软件兼容。这是矩阵乘法,图计算,并行的核越多越好。然而,这些芯片现在遇到了挑战。以前,这是英特尔和AMD的一两个团队的问题。现在这是每个人的问题。”

保持所有事情同步正在成为一个过程,而不是一个单一的功能。“你可能有不同的工作量,”费萨尔说。“所以你可能只想在一个工作负载中使用50个内核,而在下一个工作负载中你却想使用500个内核。但当你打开接下来的500个核心时,你最终会给电源网络带来压力,导致网络下垂。”

同时开关噪声也存在问题。在过去,有些问题可以用保证金来解决。但在高级节点,这一间隙增加了电子通过非常细的导线所需的时间和能量,这反过来又产生了电阻,增加了热耗散。因此,在每个新节点上的权衡变得更加复杂,包中不同组件之间的交互是可添加的。

“如果你看看5G,它在汽车领域的意义与数据中心或消费者不同,”华为公司产品营销集团总监弗兰克·席尔迈斯特(Frank Schirrmeister)说节奏在采访的时候。“它们都有不同的延迟吞吐量。AI/ML也是如此。这取决于域。然后,因为一切都是超连接的,它不只是在一个领域内。所以它本质上需要同一芯片的多种变体,这就是异构集成变得有趣的地方。SoC的整个分解非常方便,因为您可以基于诸如binning之类的事情实现不同的性能级别。但它本身已不再是设计,因为有些规则不再适用。”

结论
整个芯片设计生态系统都在不断变化,这一直延伸到软件领域。在过去,设计团队可以确信,在高抽象级别上编写的软件可以很好地工作,并且在每个新节点上都会有定期的改进。但随着规模扩大的好处下降,以及随后需要更快处理的数据的增加,现在每个人都必须更加努力地工作——他们必须与过去从未有过太多接触的团队更加合作。

至少就功率和性能而言,最好的方法是使用定制或半定制的架构为特定目的设计芯片。但这也产生了一系列问题,这些问题需要时间来解决。用于2.5D和3D设计的工具刚刚开始推出,芯片制造商正在制定计划,以使它们变得非常具体,或者足够通用,以便能够在多种设计中利用他们的架构。无论哪种方式,每个学科的工程师都需要开始超越他们的关注领域,关注芯片系统和系统的系统。未来是光明的,但也更有挑战性。

相关阅读
面向领域特定的EDA
工具市场真的在变化吗,还是一直都是这样?
结构、晶体管、材料的巨大变化
谁在新一代芯片中做什么,他们预计什么时候做。
缩放,高级包装,或两者兼而有之
选择的数量在增加,但权衡的清单也在增加。



留下回复


(注:此名称将公开显示)

Baidu