中文 英语

设计一个更好的时钟网络

最优的功率、性能和定时取决于对时钟网络架构做出正确的决策。

受欢迎程度

打下适当的时钟网络架构基础,对芯片的最佳性能、功耗和计时至关重要,特别是在包含数十亿个晶体管的高级节点soc中。

每个晶体管就像一个标准电池,需要一个时钟。高效的时钟网络应确保开关晶体管节省功率。在今天的高级节点中,当一个设计端口从N5到N3时,代工厂确保设计在切换时节省电力,这使设计工程师脱离了循环。

但是,通过使用时钟和时钟路由实现进程扩展可以获得更多的性能。通过删除一些缓冲区,或改变它们的大小,下一代可以节省更多的电力。这也允许更多的功率优化选项。

关键是掌握由时钟引起的功率变化。通常,当时钟是门控或非门控时,功率变化会发生在设计中,功率变化是时钟方案的一个工件。

但是,随着时钟网络跨越一个十字线大小的芯片,计时关闭变得更加复杂,特别是对于大型同步系统。设计人员面临着巨大的时序关闭挑战,因为时钟倾斜变得更具挑战性,时间边际收紧。

更糟糕的是,时钟网络消耗电力的速度很快。该公司首席技术官兼联合创始人Jeffrey Fredenburg表示:“时钟网络可以消耗多达一半的芯片动态功率,并导致系统成本增加,系统层面的功率封装减少,并增加人工智能、数据中心和汽车原始设备制造商的总拥有成本。Movellus

传统上,选择时钟网络拓扑结构和策略是一个物理设计决策。“然而,设计中心在他们的时钟架构上应用了左移指令,使决策更接近架构阶段。通过向左移动,设计师可以在建筑(地点和路线)阶段获得更高的电力效率和性能飞跃,”Fredenburg说。

在过去,工程团队创建了一个精心设计的时钟树,以表明他们希望芯片上的所有东西,从一个角落到另一个角落,以保持同步。“挑战在于,他们必须在芯片中心附近的某个地方安装一个时钟,然后以一种方式分配这个时钟,使芯片上的任何电路始终与其他电路同步,”该公司的杰出发明家史蒂文·吴(Steven Woo)说Rambus.“然而,这种全球同步成为了一个问题,因为在整个芯片上分布一个高频时钟需要很大的功率。然后人们开始说,‘也许我不必让所有东西都在全球同步。也许在我的芯片设计的小口袋里,我可以有本地同步电路。“但在进入另一个域时,就存在域交叉问题,需要特殊的电路来允许数据在非时钟对齐的边界之间传递。”看看那些设计人工智能芯片的公司,他们会说,‘也许我真的不需要同步的大岛。也许我只需要与相邻电路同步。’这样做的目的是减少在整个芯片上分布高精度时钟的需求。”

这并不意味着我们会看到无时钟的设计。“时钟仍然是需要的,但对它们在整个芯片上同步的要求越来越小,”Woo说。“然后你也可以开始减少电量。其中一些人工智能芯片,以及像收缩阵列这样的东西,不一定需要消耗如此多能量的巨大全球时钟树。现在你把所有的能力都转化为更多的SRAM和更多的计算元素。”

原因/效果
但如果时钟不同步,就会产生影响。“从性能的角度来看,跨越这些界限需要一点时间,因为它不是完全同步的,你必须接受这一点,”他说。“就人工智能开发人员而言,他们会说,‘我们会处理这类事情,因为我们关心的是全球吞吐量。如果我能证明,通过节省电力,我可以拥有更多的计算引擎,尽管它可能需要更长的时间来获得数据,我可以拥有更多的计算管道,如果我这样做,生活会更好。“从电源的角度来看,这样可以节省时钟分布功率,所以它通常是好的,但通过芯片传输数据的延迟往往会更高。”所以如果你在一个对延迟非常关键的应用中,一般来说,你会希望有更多的同步电路和同步边界交叉。但如果你愿意放弃一些,那么远离这种架构就很有意义。”

变化增加了另一个问题,因为任何功率变化都会影响计时。公司产品营销总监Marc Swinnen说:“就像你的芯片有电量波动一样,电池上的电压下降也会产生类似的性能波动。有限元分析软件.“它仍然可能在允许的电压降范围内,但这确实意味着电池有点慢。电源电压越低,晶体管开关越慢。所以当你的电压下降时,你的性能也会下降。如果你有足够的局部蘸料,每一种蘸料本身都可以。但总的来说,它们到达了这个关键的路径,这个路径现在太慢或太快了。如果电压峰值,你可以有一个更快的性能,你可能会错过保持时间。这可以归结为电源噪声对计时的影响,而主要受害者就是时钟。”

时钟是一个大的网络,理想情况下,有一个非常有规律的脉冲流从时钟树下来。但是由于开关靠近时钟,这些时钟传输门会随机地慢一点或快一点,这会导致时钟抖动。当今时钟抖动的主要组成部分之一是功率纹波和功率变化。

斯温宁说:“如今,任何电子电路基本上都是一个状态机,时钟会让你从一个状态走到另一个状态,而时钟间隔,即两个时钟滴答声之间的时间长度,基本上是你在任何时钟阶段可以完成的工作量。”“但你必须有边际。当然,设置和保持时间会占用你的时钟,但抖动是另一种可变性或未知因素,它会缩小你必须工作的时间,因为时钟可能会晚或早。它是随机的。它统计了它抖动的方式,所以它会影响整个芯片的时间。如果你能把抖动降低,比方说,10%,或者至少能更好地预测,这就像让时钟快了10%,这将产生巨大的影响。如今,保证金计算变得越来越困难,所以你需要准确。不过,抖动的主要原因是功率变化,这就是时钟抖动分析的切入点。传统的计时工具认为电压是一个固定的东西。它们都是在固定电压的假设下建造的,所以它们很难处理这个问题,因为从一开始它们就看不到功率的变化。 That’s not one of their parameters.”

此外,在非常高级的工艺节点上,不匹配效应会引起抖动。

该公司高级产品营销经理Priyank Shukla表示:“晶体管的匹配是先进工艺技术的关键优势,因为你可以让两个晶体管彼此匹配得非常非常紧密,如果面积更高,不匹配就会更小。Synopsys对此.“随着地理位置的缩小,你不仅有更小的外形因素,而且还有finfet。我们以前是平面的,所以比较容易匹配。在finFET中,有三个鳍片来实现晶体管,并添加了工艺步骤来实现这些鳍片。所以这种不匹配在不同类型的抖动中表现出来,这是一种新现象。它之前不在那里。此外,在过去,标准的技术是评估。但现在它通常没有帮助,因为如果面积更高,它会增加电容。你在增加电容,所以需要新的电路来解决这类挑战。这是先进节点的一个新节点。”

对于数字设计师来说,商业工具可以直接解决这个问题,从分析时钟抖动到变化感知统计定时分析。这些工具可用于分析电压和电压噪声对计时的影响,并可以计算时钟抖动,显示抖动将是什么,以及引起抖动的原因。

其他技术包括动态压降分析,以查看在附近的开关。这使得设计团队可以加强时钟网络,使其对电压噪声不那么敏感,而不必为整个芯片甚至整个时钟网络付出代价。有一些特定的阶段会受到电压噪声的影响更大,因此可以进行根本原因分析,然后针对目标进行手术修复,并缓冲时钟使其不那么敏感。这种细粒度方法有助于限制利润率,因为它不会在任何地方都假设最坏的情况。

Swinnen说:“时钟经常被忽视,但人们忘记了在高速芯片中,仅时钟就消耗了芯片中30%到50%的功率。”“三分之一到一半的电力在时钟网络中被消耗掉了。所以当你在进行低功耗设计时,这是你应该考虑的第一件事。”

模拟/混合信号
对于模拟工程师来说,没有工具可以以同样的方式来处理时钟,所以在这个行业中学习了很多东西。Shukla说:“模拟工程师没有被教授这些东西,因为高级finFET过程节点很少被教授。”“但在工作中,所有先进的芯片都采用finFET工艺,所以模拟工程师在行业中学习这一点。他们通过IEEE论文或大量网络研讨会学习如何更好地设计。”

虽然工具存在,但这是否意味着时钟网络架构的问题以及由此产生的对电源的影响是一个解决的问题?

兰布斯·吴不这么认为。“我认为没有人高兴。每个人都希望功率更低,尤其是在计时方面。在我们的一些PHY电路中,我们的时钟必须在很长的距离上分布,而在很长的距离上分布高频时钟是一个挑战。肯定有重复装置之类的,所以没人会满意。这是一个已解决的问题吗?就像芯片设计中的所有东西一样,这是人们现在可以解决的问题。到了某个时候,他们再也无法应付了,这时你就必须采取行动了。这是打地鼠问题,你必须先打另一个鼹鼠。同样地,当时钟1冒出头来的时候,你就得去处理它。 So much of this is just trying to keep everything at a level where no one thing is sticking out more than the other. There are solutions right now, but clock power is always a problem. The question is when you’re going to really be forced to deal with it next.”

其他人也提出了类似的担忧。“当我们的架构中不同计算层之间存在数据依赖关系时,我们需要确保整个数据路径中存在某种同步,”Ramesh Chettuvetty说英飞凌科技.“其次,当芯片尺寸增加时,如嵌入式ram和多核,我们谈论的是100mm²或800mm²的芯片。确保我们在芯片本身的四个角落有同步将是一个挑战,因为芯片本身肯定会有时钟路由延迟。为了解决所有这些问题,我们需要有一个非常万无一失的时钟架构,它要考虑到所有的设置和保持时间要求。这些是高频时钟,所以你肯定需要在不同的核心之间建立某种同步网络。另一种同步方式是依靠内核之间的握手。这种方法的问题在于,它降低了数据移动的效率。”

特别是在内存计算类应用中,在这些架构中每个人面临的最大挑战是提高数据流效率。

Chettuvetty说:“一旦我们有了依赖于来回通信的握手协议或仲裁电路,就会减慢层与层之间的数据移动,这在这些架构中不是一件好事。”“这将大大降低效率。工程团队尽可能依赖于使用同步体系结构,但同步体系结构在数据流中没有任何瓶颈。这是每个人都在努力的。它们的成功程度将决定系统的整体电源效率。这是一个非常重要的方面。在这些系统中,时钟体系结构是一个非常重要的方面。这些都是工程团队在许多此类soc中使用的标准实践,他们对如何做到这一点有一定的了解。我没有看到专门针对人工智能的时钟架构有完全创新的方法,但一般来说,数据流效率和同步架构是人们在寻找提高效率的方法,这显然意味着时钟有一个重要的位置。”

结论
Movellus的Fredenburg说,时钟网络是芯片上最大的网络之一,它们对功率、性能和面积有很大的影响。“对于每个时钟网络拓扑结构,设计人员必须做出关键的权衡,例如功率与性能或上市时间与性能。”

虽然时钟拓扑在过去25年中一直保持相对静态,但新的拓扑正在出现,在电源效率和时序闭合敏捷性方面带来了显著的飞跃。



留下回复


(注:此名称将公开显示)

Baidu