中文 英语
系统与设计
的意见

通过智能时钟网络启用大芯片人工智能解决方案

对人工智能计算,只是把更多的芯片或处理器问题不是一种可伸缩的解决方案。

受欢迎程度

数据中心、自动车辆和计算机视觉应用程序将可伸缩的人工智能计算的极限。数据中心芯片面临数亿参数模型,每年持续增长。ADAS系统需要灵活性和处理能力的新模型类型,如视觉变形金刚。边缘人工智能解决方案预算紧张的电力需求和并行处理多个模型的能力。系统架构师发现,旧的方式把更多的芯片/处理器的问题不会导致一种可伸缩的解决方案。

为什么征服人工智能硬件那么棘手?人工智能模型推进在规模和复杂性曲棍球棒增长率,和硬件计算能力却没有跟上。让我们看看Nvidia的产品路线图为例。最近,AI巨头宣布料斗GPU阵容。相比之前的安培gpu,该公司宣称其新的硬件改善培训时间超过2 x和推论利率~ 2.5 x。尽管增速令人印象深刻,他们苍白相比,模型规模增长。

经过实践检验的提高性能的途径已经把瓷砖的数量,核心,或芯片。人工智能芯片遵循这个经过时间考验的方法,在数据中心可以超过850000内核和硬件solutions-especially每个芯片(大脑的WSE2)。但问题是作为设计师增加更多的元素和芯片处理解决这些模型,每个核心性能下降,如图1。

图1:每个芯片性能。(图片来源:TechInsights)

这些收益递减是由于固有的开销多处理器实现。系统设计师们探索了许多角度提高比例,如不同的内存技术,高效的互联和软件优化。然而,一个重要的设计方面经常被忽视:时钟网络。看似平凡的技术可以占30 - 40%的功耗和它有一个对数据移动架构的影响,频率缩放和设计复杂性。

更大的芯片会导致更大的孵蛋的问题

在人工智能的时代,大型多核芯片新常态。更多的瓷砖或核心需要更多的区域,导致下游的许多问题,如更高的功耗,更复杂的互联,更高的系统延迟,增加倾斜。这些问题源于低效率在现有时钟网络解决方案。

想象你被击中的转换线,成为一个500毫米的时钟信号2芯片。当你开始你的MAC单位长期曲折的旅程,你会遇到中继器失败在NoC, AI引擎和NoC之间同步失败,美国疾病控制与预防中心细胞如您遍历时钟域。这些停止创建至少一个周期的延迟,和大型芯片有成百上千的这些点,如果不是数百万。所有这些增加时钟网络开销和显著增加系统延迟。

架构师和物理设计团队经常独立工作,导致断开当解决设计约束。前面提到的一些问题存在于时间域,它们可以破坏拉伸性能和建筑目标的进展。例如,架构师可能推动芯片完全同步。但是,如果有时钟分布网络的局限性,物理设计团队可能无法实现完全同步域在芯片和满足频率目标。后端工程师必须恢复到异步领域,引入不必要的延迟和妨碍性能增长。

这种各个击破的方法挤压物理设计团队实现性能目标设定的建筑师。但如果我们接近问题全面,有机会为整个设计团队,以满足拉伸性能目标没有踢的后端设计团队。

智能时钟网络和可伸缩的人工智能

每一个芯片开始于一个完美的时钟信号。作为信号穿过芯片,它常常是延迟和扭曲的,因为芯片的电气性能。但如果有一种方式,积极弥补这些问题引起的固有的物理芯片,这样我们可以提供一个完美的时钟信号接近每一个失败?这种技术的方法Movellus智能时钟网络的IP。智能时钟网络战略智能时钟IP模块在整个芯片的地方。这些模块积极弥补芯片上变异,倾斜,衰老在运行时。智能时钟模块也意识到其他智能时钟模块和可以同步创建大型同步时钟域。这种方法减少了需要以失败,CDC缓冲区,和中继器失败,从而避免开销和人工智能应用程序提供更低的延迟。

图2比较Movellus智能时钟网络方法与当今流行的解决方案,包括与时钟树综合tool-driven方法(CTS)和semi-custom策略,实现了一个网格。图表显示设计关于F的权衡马克斯,有用的时钟周期,过程的灵活性,力量和区域效率,方便定时关闭。智能时钟网络可以把今天的优势相结合的解决方案,提供网格的性能功耗的一棵树。

图2:时钟网络设计方法。

采取了一种整体的时钟网络设计方法和使用解决方案如Movellus智能时钟网络解决方案可以显著提高性能、功率效率,效率和面积相比,现有的解决方案。关键架构优势是智能时钟网络启用同步时钟域的扩张。这些网络允许SoC设计人员删除不需要的和积累更大的芯片的系统级的延迟通过消除对你的时钟网络保险设计。作为建筑师努力满足计算要求更大、更复杂的模型,他们必须重新审视每一个障碍对有效的扩展,包括时钟网络。智能时钟网络提供一个架构的解决方案,使芯片制造商和oem厂商规模的人工智能计算设计,以满足未来的需求的产品。



留下一个回复


(注意:这个名字会显示公开)

Baidu