中文 英语

降低每比特能量

为什么控制能源需要整个半导体生态系统的改变。

受欢迎程度

能源正在成为芯片和系统设计的焦点,但解决与能源相关的问题需要在比设计团队通常看到的更广泛的范围内处理。

能量是在一段时间内执行给定任务所消耗的电量,但减少能量与减少功率有很大不同。它影响从运营成本和系统性能到架构平面规划、验证和整体系统可靠性的一切。在数据中心在美国,对能源的担忧正在推动数据在哪里处理、如何移动、移动到哪里以及每一步花费多长时间等方面发生变化。在高级封装中,它决定了从布局到热管理的一切。在汽车和物联网等垂直市场,它决定了设备一次电池充电可以运行多长时间。

但提高能源效率需要重新思考许多使用芯片的流程,以及芯片本身。“在大数据分析应用程序的情况下,你经常是在大海捞针,”Steven Woo说,他是斯坦福大学的研究员和杰出发明家Rambus.“我有装满数据的磁盘,我可能只需要其中的一两个。但如果我必须以传统的方式搜索所有这些,你把磁盘上的所有东西都转移到CPU,那么CPU就会搜索所有东西,然后扔掉99.999%。”

这意味着很多正在做的工作实际上是浪费的,这转化为浪费的能源。它还催生了数据处理和数据存储的替代方法。

“因此,人们对磁盘阵列所做的是并行传输所有数据,以便速度更快,但最终他们仍然有一个CPU,这是搜索数据的瓶颈,”Woo说。“另一种方法是,在他们意识到这需要大量的时间和精力之后,允许每个磁盘都有一点智能,这样它们就可以并行搜索,只发回匹配特定请求的数据。这意味着带宽和能量不会浪费在移动永远不会被使用的数据上。一切都是本地的,我只看到符合我的标准的数据。”

这其中有两个关键因素。一是有更多的数据需要处理,即使电力预算持平或缩减。第二,更多的计算是在与电池相连的设备上完成的,或者有更多的分析来测量能源消耗。

Digital & Signoff Group的产品管理总监罗布•克诺斯(Rob Knoth)表示:“能源问题越来越突出,因为它是看待日益普遍的问题的另一个方面。节奏.“随着越来越多的智能被集成到边缘设备中,为其供电和电池寿命正变得越来越受关注。在其他领域,如超大规模计算,其挑战比传统的挑战(包括可靠性、功率密度和产量)严重几个数量级,这一切都发生在足球场大小的计算机上。解决这些问题的传统方法只在一定程度上有效,所以这意味着更聪明地工作,而不是更努力地工作。”

或者换个角度看,复制数据并不是免费的。DesignWare IP解决方案营销经理Scott Durrant表示:“为不同的应用程序复制数据,在时间、精力和存储空间方面都很昂贵Synopsys对此.如果允许多个处理设备或应用程序访问相同的内存,就可以共享数据,不仅可以节省移动数据所需的能量和时间,而且还可以只有一个单一的真相来源(SSoT)。您不会有多个可能不同步的数据副本,不知道哪个是最新的或最正确的。因此,维护一个单一的副本,并允许不同的设备访问该副本中的数据,就像缓存一致类型的接口一样,变得非常有价值。”

这些考虑因素会影响体系结构的选择,因为应用程序以及数据流和数据类型可以驱动集成到SoC中的核心的选择。

“当我们谈论数据传输时,我们以每比特皮焦耳为单位来测量功率或能量消耗,所以对于你传输的每一个比特,都需要一定的能量来让它在导线上移动,并通过它必须穿过的中间设备,”Durrant说。“当你谈论每比特的能量时,当你增加传输的比特数时,能量就会上升。我们发现,在使用传统技术进行这些非常高的数据传输时,传输tb级数据所需的能量变得难以维持。它会产生大量的热量,而且很贵。数据中心运营商必须为这些能源买单。它被认为是不环保的,所以有很多原因说明控制能源是很重要的。这就是为什么这些设备的架构师,实现协议的人,正在努力寻找以更低的每比特能量传输数据的方法。”

另一种方法是减少实际需要移动的数据量。“如果你将数据存储在一个位置,并将其复制到内存中五次,那么你已经使用了大量的能量来进行这些复制。如果你能一次把它复制到内存中,或者更好的是,即使只是把它放在那里,在适当的地方处理它,那么你可以节省大量的能量。”

移动数据在能量和时间方面都很昂贵。可以移动的数据越少越好。

“一旦你有能力只发送回真正重要的信息,也许你甚至可以在存储中做一些简单的计算,”Rambus的Woo说。“一旦你有能力将少量更有意义的数据发送回CPU,那么CPU就会尽可能长时间地保留这些数据。它可以执行诸如权重静止的技术,即它只是保存数据,并试图不移动它。你所希望的是尽量减少数据在磁盘上的移动。”

思考更大
这现在成为整个SoC或系统架构选择的关键因素。

Knoth说:“如果我们只是努力推动rtl -to- gdsii实现签收流程,我们将会成功。”“我们可能会在一个特定的设计上获得5%到10%的收益,我们都会拍拍自己的背说我们做得很好。但这并不能实现我们作为一个行业所被要求的收益。我们不能满足于这里5%的收益,那里2%的收益,那里10%的收益。无论是从生产力的角度,还是从终端功率/性能/面积/能源的角度,我们都必须寻求50%的收益,2倍的收益。如果我们想要实现我们在行业中所面临的目标,我们就必须寻找这些目标。”

这就是能量开始成为焦点的地方。“如果你开始谈论能量,你谈论的是一个系统所做的实际工作,而不仅仅是在某个时刻谈论它,这是一个静态事件,”Knoth说。“当你谈论某个东西正在做的工作时,你自然会开始谈论它的架构。这是重大胜利发生的地方,但传统上,这是在墙的另一边。当我谈论RTL-to- gdsii时,当我谈论已经编写的RTL时,已经做出了许多决策,这些决策可能会迫使您进入局部最小值。如果你想获得2倍的收益,你不能满足于此。你必须能够回过头来说,‘我所看到的整个解空间是什么?我是否可以将时钟频率提高一倍并将总线宽度减半,从而实现更低的总功率和能量?“你不会在RTL,这不是RTL-to-GDSII平台将要做的事情。你必须要看建筑SystemC在MATLAB级别。”

这不仅仅是一个特定的工具。对于架构师和设计师来说,这需要改变他们考虑他们的设备将要做的工作的方式,并在更高的层次上思考它。

Knoth指出,这种转变与计算软件和EDA的发展相吻合。“想想我们的行业是从哪里来的,我们已经打破了壁垒。我们擅长把人们聚集在一起,让他们建立联系。它让处于工具链上游的人使用与下游的人相同的引擎,相同的算法,相同的工具,这样他们就能更好地预测,从而更早地做出更好的决定。他们需要能够做出架构级的决策,而不是让它成为一个惊喜。这不仅仅是,‘我要做一个新工具,去卖那个新工具,然后拍拍自己的背,因为我赢了。“这是关于在一开始就不说话的人之间创造新的对话。它是关于分享在许多情况下已经存在的技术,但它们并没有被能够产生最大影响的人使用。”

回到基础
RTL工程师或架构师的最终目标是制造节能系统。

“从根本上说,更高的能量意味着更多的功率,意味着更多的散热,”Qazi Faheem Ahmed说,该公司的首席产品经理西门子EDA.“这意味着可靠性降低或冷却成本增加等。所有这些担忧都变得越来越大。最重要的是,百亿亿次计算给cpu、gpu和模拟芯片的能源消耗带来了很多问题。即使是物联网设备也应该在小电池上持续很长时间。我们知道,能量是随着时间的推移而整合的能量。假设有一个工作在一段时间内消耗了X量的能量。减少能量耗散的唯一方法是用同样的功率更快地完成,或者花更多的时间但消耗更少的能量,或者花同样的时间但消耗更少的能量。”

但是,在更大的系统中,这些关系会发生显著变化。艾哈迈德说:“如何减少电力最终会导致如何减少能源。”“但从一个由多个CPU和GPU核心组成的系统的大局来看,这将如何发挥作用,你如何知道在占用额外能量而实际上没有导致吞吐量的地方存在问题?”可以理解,吞吐量越大,功耗就越高。但是如何在不影响吞吐量的情况下控制功率呢?这就是有趣的地方。我们有客户询问如何管理SoC的能源消耗,甚至在IP级别,如何评估哪些操作或RTL代码的哪一部分消耗了更多的电力或消耗了更多的能源?这意味着他们必须尝试不同的工作负载或场景,每种场景都有特定的功率数字或能耗数字,关于如何优化能源,还有很多需要了解的地方。这就是今天的情况,软件工具还没有准备好处理和提供这种方法来深入研究RTL代码、工作负载,并为用户提供能量被浪费的确切图像。”


图1:能量比例图。能源应该随着吞吐量的增加而上升。此外,需要分析不同的工作负载的能耗与吞吐量,能耗不均衡的区域应该是功率优化的重点。来源:西门子EDA

这对许多行业领域都有广泛的影响。以汽车电气化为例。电动汽车需要高性能和低功耗的嵌入式系统,以最大限度地提高每次充电的英里数。为了实现这一目标,汽车oem和一级供应商正在向高级工艺节点过渡,以优化低功耗下的性能。

英特尔市场和应用高级总监Sandeep Krishnegowda表示:“内存子系统的设计考虑因素之一是外部DRAM代码执行的能量消耗,在125°C以上的极端温度下,能量消耗可以提高2倍。英飞凌科技美国.“降低能源消耗的方法之一是通过高性能外部NOR闪存就地执行(XiP),以提供更低的每比特能量,并与DRAM相比降低系统成本。”

热冲击能
能源也有热的方面。更小的几何图形,更多的设计被组装成chiplets而且3 d栈,包装内的热方面需要分析、验证和优化。在高级节点的情况下,问题源于更细的电线(将信号通过更细的电线传输更远的距离需要更多的能量)和逻辑密度(在给定区域进行更多处理会产生更多的热量)。在这种情况下先进的包装在美国,这个问题与散热有关,这对于3d - ic中的逻辑来说是一个特别大的问题。

所有这些使得热分析更加困难,因为在电定时和热定时之间有不同的时间常数。该公司产品营销总监马克•斯温宁(Marc Swinnen)表示:“热能传播缓慢,以秒为单位,而其他能量的传播则以纳秒或微秒为单位。有限元分析软件.“这是一个非常不同的时间常数。当你看瞬时功率时,功率的使用对热来说不是那么重要,但是能量是。如果它只是一个很小的光点,在很短的时间内消耗了大量的能量,就没有太多的能量进入那里。但如果出现很多这样的光点,平均来说,就会消耗大量的能量。站在后面,向上看五层,看看最终吸收到散热器的热量——这更多地是关于使用的能量,而不是电力。”

在矽通过在堆栈中运行更薄的芯片,也有更多的局部能量效应需要处理。Swinnen说:“尽管这只持续了一微秒,但它会导致局部的热峰值。”“例如,我们有一个客户测试案例,他们有数千个凸起和微凸起,允许两个芯片之间的电流进行通信,并且有一个模拟显示,其中一些凸起短暂地携带了强烈的电流。它们会升温,但随后又会冷却。然后下一个浪涌出现,它再次升温,但电路并没有冷却到原来的位置。每次温度升高,它们就不会冷却那么多。它们继续加热,最后,大约14秒后,凸起融化。这种事不常见。人们不习惯它,尤其是从时间方面来看。在每种情况下,功率都是可以的,但随着时间的推移,设备中消耗的总能量导致它融化。”

系统集成高级总监Javier DeLaCruz手臂他指出了类似的问题。“由小芯片组装而成的设计引入了新的考虑元素,假设我们谈论的是2。xD配置,如不同的最大结要求。在本例中,同一封装中的设备可能需要进行更多的热去耦。带有嵌入式热管的热扩散器的进步是缓解每个芯片不同热需求的有效方法。这些小芯片确实需要单独建模,以确定它们的热生成特征。然后,这些芯片需要被视为封装系统的一部分,包括这些热源的耦合,这些热源会影响每个芯片,然后可能会影响时间和其他性能指标。”

当封装的芯片被安置在一个系统中时,还有其他的热考虑因素和冷却要求。DeLaCruz说:“手机系统和高性能计算系统之间的复杂性差异很大,但每种系统的处理能力都有限制,可能是系统本身存在限制。”“通常,封装部件的设计和热模拟是基于一组抽象的假设,这些假设可能并不代表完整的系统插框。这可能对系统插框构成挑战,因为可能有许多部件争夺相同的散热路径。”

此外,在可能基于软件工作负载抽象能源消耗状态的情况下,运行在这些设计上的软件需要更精确的动态功耗和热效应模型。“工具箱里有几个热管理工具。一种工具是利用封装系统的热质量,以便对热事件发出足够的警告。零件加热需要很多时钟周期,这可以在软件中观察和补偿。”DeLaCruz补充道。

结论
对于所有的能源设计问题,重要的是要记住,动力不是一两个东西的功能。

“这是一个复杂的事情,它受到切换活动的影响,”西门子EDA的Ahmed说。“它受到正在使用的技术的影响。它受到你设计方式的影响,以及所有这些不同的东西。工具中必须有一些功能,RTL设计人员也必须有一些专业知识来利用这些功能。您必须限定您的工作负载,以确保您正在使用正确的工作负载来估算功率或能量,以获得现实的图像,并且您正在使用正确的技术来降低功率,并将重点放在正确的地方,而不是执行某些可能对大局没有帮助的技术。最终,分析可以帮助在更高的层面上做出合理的判断,无论SoC的能源效率是提高了还是保持不变。”

相关的
更多数据驱动关注集成电路能效
影响如何、何时以及在何处处理数据的决策。
降低人工智能能耗的11种方法
将人工智能推向边缘需要新的架构、工具和方法。
低功耗仍是主导,但能源将成为未来的焦点
更多的数据、更多的处理器以及缩减的规模效益迫使芯片制造商进行创新。
电网问题
一切事物的电气化将如何影响发电、存储和可用性。



留下回复


(注:此名称将公开显示)

Baidu