中文 英语

互连挑战成长,工具落后

更多的数据,更小的设备当前技术的极限。修复可能是昂贵的。

受欢迎程度

互联越来越多的有问题的设备缩小和移动系统的数据量持续上升。这种限制多次出现在过去,今天再次发生。

但是当互连成为一个问题,它不能以同样的方式解决问题是解决其他方面的芯片。通常它导致中断如何使用的工具和解决方案,提供他们的任务放在第一位。这些问题的范围从物理挑战,逻辑架构挑战。

“只是一个织物的连接功能块做“真正的工作”,互联往往忽视了在构建系统架构,”亚历山大·米贾托维奇说,高级设计工程师VTool。“在小系统互连挑战不是你会担心。互连的复杂性不是比得上其他模块的复杂性。”

那么是什么让当代设计互联这样具有挑战性吗?这个问题的答案可以从不同层次,因为各级互联随便使用的芯片和芯片在一个包中。他们跨越了从金属0芯片和之间chiplets。需要考虑所有这些工具。

“在物理层面,总会有有趣的问题随着速度的增加和设计变得密集,”David Choe说,高级定制的集成电路的主要产品工程师和PCB组节奏。“设计追求速度的增加,低电压电源rails和更快的接口。需要越来越使用均衡和相同的,如果不是更多困难,利润来满足。选择的材料处理制造公差和更好的性能损失现在基本练习,而chiplets和硅等新方法插入器引入新的变量。”

在更高的层面,互连作为限幅器。“挑战是非常相似的soc和2.5 / 3 d系统,”安迪Heinig说集团经理高级系统包装弗劳恩霍夫研究所集成电路IIS。“在任何情况下,互联限制系统的整体性能。目前,在不久的将来,没有可用的技术解决方案来克服这个问题。唯一的方法是在设计过程中考虑到限制。”

互联规模不以同样的方式作为其余的设计。“互连构成最大的SoC集成挑战,因为分而治之的规则掌握日益增长的复杂性并不适用,”蒂姆•Kogel表示主要应用工程师Synopsys对此。“IP子系统像CPU、GPU和加速器,都可以单独开发和测试。然而,当被集成到一个SoC,所有子系统都需要竞争访问共享内存子系统。人工智能的兴起加剧了互连的问题,因为人工神经网络是基于暴力处理巨大的数据集。因此,AI启用soc需要满足带宽需求没有饥饿的其他组件的AI加速器”。

问题在一个芯片
芯片正在增长。“十年前,互连会关心大约10 k·盖茨“Benoit de Lescure说,首席技术官Arteris IP。“现在他们需要互连10米盖茨在芯片上,因此有非常显著增加复杂性。在互连的客户数量增加了。”

在其他方面复杂性增加。“过去,一个主人会讲一个奴隶,”VTool的米贾托维奇说。“挑战只是奴隶的主人访问任何使用尽可能少的电线。并不是特别难,因为奴隶是互斥的。它开始与新协议变得更加复杂,多主机,主机系统。现在你需要提供许多路线通过相同的互连。你不能连接每一个主人奴隶与独立的交通系统蛮力。你不知道如何处理,许多电线。”

有身体上的挑战。“为了保持你的信号损失至少减少电迁移,影响质量和可靠性,必须使用更广泛的痕迹,“丽塔霍纳说,高级产品营销经理3 dic Synopsys对此。“这失败的概念,为什么你想去小的技术。”


图1:更高的阻力较小的线宽。来源:林的研究

互联没有相同的方式扩展逻辑。“互连比例已经有所推迟由于多个模式挂钩到193海里,“说Milind短小,高级副总裁在分子间的程序和操作。“这可能改变EUV甚至增加使用DSA。在这一点上,RC延迟(和相关的k还原)将作为优先事项再次出现。很好的权衡将坚持k = 3.0 ~ inter-metal (Mx Mx + 1)介电和同样优先考虑机械强度。然而,k减少可能会得到更积极地推动intra-metal 2共面线之间(Mx)介质,因为它是那些将加速萎缩的intra-metal线条和空间模式的进步。”

有互连保持是非常重要的。“网络芯片的技术建立了90 nm流血的边缘时,“Arteris IP的de Lescure说。“这是设计需要一定的逻辑,一个典型的应用程序。他们可能会说,‘我想要在20到25之间的逻辑之间的人字拖。流程正在萎缩,人们不想重新设计一切只是改变失败之间的逻辑。有弹性的管道长距离跨。所以人们不断增加管道在必要时,就是这样。技术本身不会改变。将会改变,频率越来越高。”

这一切正在发生一些芯片制造商已经足够快了。“你是多少数据移动在一个去吗?“问米克·波斯纳,产品营销高级总监DesignWare IP,在Synopsys对此高性能计算解决方案。“这是256,512,甚至1024数据位?1024年数据位是我们看到在地平线上。这就增加了传输的数据量在相同数量的时钟周期。我们期待进一步扩展数据的路径。”

现有的协议并没有跟上。“芯片上的协议需要变得更加复杂,”de Lescure说。“三年前,我们开始听到新的通信模式,其中一个是广播或散播。在一个人工智能芯片,将会有一个需要主能够播放,或多播,例如多个处理元素的权重系数。没有简单的广播行业标准协议。如果你有一个主人,想做一个广播写,没有语义在安巴阿喜。”

问题在一个包
越来越多的应用程序是被迫multi-die解决方案。”设备是身体变得如此之大,是不可能生产有足够的产量使设备具有成本效益的,”Synopsys对此“霍纳说。“他们侵犯的分划板大小步进。当你打破成碎片而死,你必须有一些物理互连设备,体育,能够让这些连接。他们中的一些人可能会并行接口,这意味着它们需要大量的痕迹在两个设备之间,也可以是序列化/反序列化器(并行转换器)在双差,往往快得多。但是你得通过平行于串行的转换,这增加了延迟。所以有细微的差别,如何使这个死解集的分区也仍然能够互连和通信之间的碎片。”

这已经超出一个简单的双工位的解决方案。“传统上,包装设计是简单,用户可以用电子表格计划互连和眼球检查连接正确,”约翰·弗格森说产品管理主管导师,西门子业务。“现在,与多个死了,插入器、桥梁和chiplets,这种做法变得不可能。一个相关的问题是缺乏标准。这看起来有一些新的注意力从各种来源(英特尔的高级接口总线(OCP开放领域特定的体系结构)。没有这些标准,就很难保证各种chiplets连接可以在同一个包一起工作。”

物理分析也变得更加复杂。“如果您正在运行长导线,尤其是以外的芯片,你可能谈论几英寸的痕迹,”霍纳说。“你已经超越的领域建模的电阻和电容RC概念。你需要包括电感和互感和所有这些系数能够寄生的模型跟踪和设备之间的互连。取决于你如何提取这些寄生现象,这将影响仿真结果的准确性。”

当你开始堆栈死垂直和水平,它引入了新层次的互联。“它引入了一个新的水平的层次网络列表,”弗格森说,导师的。“这需要额外的设计计划和验证步骤在每个接口层面。更可怕的是,我们也看到die-to-die耦合的引入,会影响系统的性能和行为。”

范围越来越大。“传统上我们曾经谈论AMBA总线和network-on-chip架构,“波斯纳说Synopsys对此。“但现在当我们谈论互连,它不再是局限于硅。你必须考虑在芯片互连在死亡或如何相互作用。它必须memory-coherent吗?这些互连协议已经成为非常复杂。”

这种复杂性增加的权衡。“时间和精力花费在3 d堆叠,尤其是在电力、性能、成本和足迹权衡,”彼得·格林哈尔希说的副总裁技术和研究员手臂。“性能仍然是一个互连技术的关键驱动因素,尤其是高带宽die-to-die接口对称多处理使用chiplets或内存芯片。由于芯片的范围正在创建的拓扑结构,设计分区的灵活性在RAM集成是关键。”

一些工具可能无法跟上。“设计纯互连组件,是他们插入器,包RDL,或硅桥,是一个挑战,”弗格森说。“考虑芯片上的延迟非常大的芯片相比,纯被动插入器的低电阻率。传统的芯片设计和验证工具是建立在假设有一些活跃的组件。没有他们停止工作。”

问题在系统
包的需要永远存在。“有很多运动的数据,和有很多的内存访问,”霍纳说。“当你从一个处理单元的内存中,它可能是一个缓存,它可以访问的数据存储。你必须做出多个啤酒花和周转时间是禁止的。你不能访问数据在一个跳,所以有很多停止,这增加了延迟。你要试着把你的记忆尽可能接近处理器,和大量的缓存一致性概念等方面的标准CCIXCXL,允许该内存至少几乎靠近。”


图2:系统互连以现有的概念为基础。来源:ODSA

这些标准添加到设计的复杂性。“标准和记忆的爆炸类型增加压力设计能够针对不同的用途和市场,”格林哈尔希补充说。“当考虑HPC,云服务器、SmartNIC网络、移动、工业和汽车,我们不仅看到大的性能变化,但是完全不同的内存体系结构(如持久/ NVM)喜欢CCIX / CXL标准。交付的一致性强,服务质量和RAS特性仅仅是假设,尽管是进化和具有挑战性的话题。一旦安全需求被认为是——从内存加密体系结构到边信道和超越,可以清楚地看到为什么设计和验证为先进的互联成本迅速增加。”

解决方案架构
但是实事求是地讲,“一个人必须理解最终产品的用途和使用模型,“断言米贾托维奇。“我应该建立一个高速公路,或一个走道够吗?理想的目标是最低设计请求的性能。”

复杂的包装使分析更加困难。“即使有新包装,成本美元而言,权力,和性能的硅从一个到另一个地方继续增加,“说杰夫•泰特的首席执行官Flex Logix。“最好的架构将是那些最小化需要离开芯片超过必要的。例如,在AI加速器,许多领先的芯片使用八个或更多达利克,现在搬到HBM。这给了良好的性能,但在高成本。AI加速器,可以用更少的DRAM带宽达到类似的吞吐量将权力和更低的成本要低得多。”

系统需要是可以理解的。“一个挑战,尤其是与人工智能应用程序,是人们如何处理这个,他们明白,”de Lescure说。“一个常见的方法是使互连常规,我们看到越来越多的网格体系结构。网格体系结构,开关和互连偷偷在以一种可预见的方式计算模块,所以implementation-friendly, performance-friendly。客户理解它。线程执行的按比例增加客户的数量在互连。性能得到典型的平均距离成正比,你想从你的起点。”

互联需要大量分析。“当你扩大数据移动,你不能只是放在管道阶段关闭时间因为你杀了你的延迟,“波斯纳说。“所以并行体系结构需要证明这是强调发展,因为即使RTL设计,它迫使你做完整的关闭时间来证明这些体系结构是可能的,然后扩展到一个虚拟SoC环境中,你可能会在整个芯片。”

各级用户正在分析问题。“目前,有数量有限的工具和方法可以考虑互联的影响系统的整体性能,”弗劳恩霍夫的Heinig说。”有很多必要的研究在未来几年找到更好的指标、方法和工具来预测的总体系统性能考虑互联的影响。”

很明显这个行业不能继续它的方式。“这是SoC互连体系结构编排的工作很多的通信需求,在某些情况下超过100组件,所有竞争访问共享内存子系统,“说Synopsys对此Kogel。“最大的问题是,有效的共享连接的性能和内存子系统是很难预测,更当缓存,缓存相干互连是画面的一部分。粗略估计的传统方法是使用电子表格,然后保险设计2 x的互连安全可靠。这不是一个选择了。摩尔定律所服务的免费的午餐已经结束。资源的获得变得昂贵,尤其是电力消耗和物理实现问题。”

分析在不同层次。说:“最初的需求驱动拓扑达Tomusilovic,验证Vtool主管。“理论上,你应该首先想出功率和性能的要求并确定最关键的部分。只有这样我们应该构建架构根据。在某些时候,你需要证明的需求已经满足,这是一个过程,涉及在圈子里。通常运行过程将得到基本的场景,比如确保每个主练习每一个奴隶。问题是,你要验证性能,和处理真正的并发性很晚。”

大多数验证工具不适合这个任务。“互连结构的功能验证是今天大soc的最困难的挑战之一,”塞吉奥Marchese说,技术营销经理OneSpin解决方案。“连接数达到成百上千的顺序,连接验证必须足够的容量和可用性的完全自动化的解决方案。此外,工程师可以使用即插即用的应用和贵宾发现个别案例bug中使用的各种接口协议互连。但更需要确保缺乏高层的问题,死锁、活动锁等模拟和仿真不能实现的东西。与安全ip互连和功能带来额外的复杂性,需要超越的用例场景验证和详尽,formal-based,验证是甚至更强”。

一个解决方案是变得更加系统化的规范和尺寸互连体系结构。“有虚拟样机的可执行模型的解决方案,使建设SoC架构分析能力和性能,“Kogel说。“这使得探索架构权衡和微调的许多设计参数到达各项互连配置”。

你还必须处理非常低的水平。“非常准确模拟技术与高容量和速度不仅需要用来解决个人面料互联,也作为一个复合系统在一个单一的模拟,“节奏的Choe说。“选择一个特定的数值方法来分析这些复杂的和可接受的精度和密度结构正变得越来越重要。认为“分而治之”的方法将准确地解决大多数问题正迅速成为过时。解决单独的芯片、包或PCB水平和假设的一些领域相互作用是最小的一个假设是不能为2.5 d和3 d实现成为人们关注的焦点。”

结论
互联往往被忽略,直到他们造成问题。芯片、包和系统已经达到了一个程度的复杂性,互联是不容忽视的。与此同时,他们还可以作为一个竞争优势。

不幸的是,现有的工具和方法不足以解决这个问题。在芯片内,这迫使进化从逻辑综合物理合成。我们将被迫经历一个实质性重组再次考虑互联的全部含义?

相关的
大的变化微小的互联
低于7海里,准备新材料、新结构,不同的属性。
不同级别的互联
半导体基础知识:不同的层在芯片级如何影响系统的性能。
Chiplets的好的和坏的
IDMs利用chiplet模型,其他人仍然工作。
选择CCIX和CXL之间
专家在餐桌上,第2部分:什么是正确的一个设计可能不是正确的未来。这是为什么。



2的评论

库尔特·舒勒 说:

我最喜欢引用在本文中,从亚历山大米贾托维奇,VTool高级设计工程师:“被”只是一个织物连接功能块做“真正的工作”,互联构建系统架构时往往被忽视。“这是真正的。人民终于得知一个SoC架构的实现是通过互连。换句话说,SoC架构是互连!

C豪厄尔 说:

我总是仔细阅读这些,看是否有人会承认,AMD在相干,互联和IP集成使用CCIX等标准,OpenCAPI, CXL…

他们已经超越过去的几年中,缩放回到顶部的排行,创造一个优雅的节能建筑由互联记住创建chiplets, AMD已构建的企业桌面和移动包括计算和图形中记住这些互联…

留下一个回复


(注意:这个名字会显示公开)

Baidu