中文 英语

云芯片的功耗问题日益严重

在高性能计算中优化处理器设计现在需要很多小的改变。

受欢迎程度

传统或超大规模数据中心的性能水平正受到服务器内处理器、内存、磁盘和操作系统数量不断增加所导致的功耗和热量的限制。

然而,这个问题是如此复杂和交织在一起,解决它需要一系列步骤,希望能够在整个系统中显著减少。但在7纳米及以下,准确预测芯片的实际运作方式是相当具有挑战性的。在高性能计算市场上,目标是设计性能最高的芯片,而功耗现在是主要的限制因素。

这导致了针对这一细分市场的芯片设计的重大转变,特别是对于需要始终在线或快速充电的基于云的数据中心。在过去,过度设计是确保服务器机架正常运行时间的常用方法,但现在不一样了,因为它会同时影响功率和性能。

能源是昂贵的,特别是在大型数据中心。事实上,这是大多数数据中心预算中的一个项目,它的变化很大,这取决于区域能源可用性、服务器机架产生的热量、用于冷却它们的空气或液体的方向和温度,以及在基于云的操作中有多少处理器处于“打开”和“关闭”状态,或者处于介于两者之间的某种状态。

“据估计,2014年美国2%的能源消耗仅用于为数据中心供电,”安库尔·古普塔说有限元分析软件.四年后,这个数字可能更接近5%。运行这些数据中心的经济效益促使企业开始思考,为什么计算机要消耗这么多能源。”

数据中心正在使用模拟工具来分析服务器机架,因为每个设备都是一个需要冷却的热源。这通常涉及到使用何种类型的冷却,以及是否可以优化散热和冷却。

“数据中心机架的热量对芯片的可靠性造成了问题,”Gupta说。“这让我们完全进入了半导体领域,我们开始关注工艺、电压和温度。由于产生了热量,温度需要比以前更好地分析。如果你从整体上看,例如移动计算空间,人们已经开始担心电压变化和过程变化,因为超低电压操作角,但温度仍然有点guard-banded出去了。你假设有一个温度,你的手机就会变得有点热,但这对整体产品并不不利。”

但是HPC市场所带来的挑战超出了许多设计师在移动领域所习惯的。芯片上的温度梯度不再像以前那么低,所以平坦的假设不再成立。

他说:“高性能计算的问题要困难得多,因为耗电量要高出两个数量级。”“你说的是3到5瓦的手机,而不是300到500瓦的机架。在器件水平上,有局部热效应,如每个器件的自热finFET设备。从这里开始,你可以看到芯片上温度梯度的影响,这必须进行分析,因为可能有很长的时间路径可能是关键的,并且跨越芯片上完全不同的区域。也许部分路径非常接近内存,在某些工作负载条件下,温度远高于名义温度假设。”


F搞笑。1:高性能计算。来源:IBM

不再过度设计
长期以来,过度设计一直是降低设计风险的答案,但这种方法在前沿领域已不再适用。

“当设计师不确定变化效应对晶体管级组件的影响时,他们就会增加裕度——这确保了他们的芯片能够工作,但要权衡性能、功率和芯片面积,”英特尔公司工程总监杰夫·戴克(Jeff Dyck)说Mentor是西门子旗下的企业

例如,当一个芯片必须工作在-40°C到125°C,电压范围从0.48v到1.2v,并且跨工艺变化到4 sigma时,设计人员通常会在一个或两个最坏的PVT情况下模拟PVT角的子集和几百个蒙特卡罗样本(~2.5 sigma)。

Dyck说:“这是用来帮助猜测变化下的性能,但由于猜测中存在不确定性,他们可能会增加一些模具面积,增加电压,并降低性能,以弥补估计中的错误。”“为了解释未知的变化效应,增加5%至30%的利润率并不罕见。”

这将导致高级节点性能下降、功耗增加。

“过度设计不是答案,相对于你在给定技术节点上获得的收益,与之相关的价格正在稳步上升,”at的CTO Oliver King说Moortec半导体.“过度设计的最大问题是知道你过度设计了多少。特别是在最先进的节点上,没有人真正知道finFET老化模型的作用。”

King说,一种对抗过度设计的新兴技术是实时监控芯片本身。“如果我们可以说,在任务模式中,这是某物退化的程度,那么它就赋予了他们反应的能力。这不如保证终身衰老的模型好,但现在没有人有这样的模型,所以我们必须解决这个问题。”

特别是在高性能计算领域人工智能加密货币挖矿的关键问题是电源管理。

King说:“我们的目标是以最少的能源消耗获得最大的吞吐量,特别是如果你是加密货币挖矿,因为这实际上只是花费电力美元来换取比特币。”“如果你在做高性能计算,或者你在提供数据中心和数字处理,或者你在做人工智能,情况也是如此。如果你在Alexa的末端,找出每个人在说什么,所有这些都是要花钱的。目前,所有这些筹码都归为一类。有了这些,就有了非常强烈的推动电力的愿望,并通过降低电源电压和操作更接近边缘的东西。他们知道那里还有余量,他们想要达到几乎没有余量的地步,或者甚至在某些情况下,可能已经没有余量了,他们不得不后退一点。”

所有这些都需要电源管理,既要管理芯片、封装和电路板内部的热效应,也要管理服务器、数据中心甚至商业电网内部的热效应。

传统上,高性能计算环境并不是低功耗环境。

“这些服务器不是由电池供电的,”美国数字和Signoff集团的产品管理总监马克·斯温宁(Marc Swinnen)说节奏.“它们从墙上的插座流出来。过去,人们看重的是速度,所以他们真的不太关心动力。但在先进的节点上,服务器处理器的功率已经达到极限。你只能在一块板上放这么多100或200瓦的芯片,否则它就会开始融化,所以你必须关心它。现在每个人都变成了低权力的设计师,不管他们喜欢与否。”

有了系统和芯片,必须创建电网来满足这些过程及其非常广泛的电网的电力需求。

Swinnen说:“有一种传统的方法来检查电网是否真的支持配电,但这通常是纯粹从电压降的角度来做的。”“设定了电压降限制,然后你希望看到芯片在任何活动中都不会超过这个限制。问题是这些限制正变得越来越严格。更高的速度和更低的电压意味着在设计电网时必须更加小心。”

他指出,由于7nm节点具有更高的电阻,因此充分设计这些电网变得更加困难。“我们并没有单纯地将其视为压降边际,而是一直在询问工程团队真正关心的是什么,特别是关于压降的时间影响。”

高级节点和静电泄漏
虽然先进节点仍有许多挑战,但设计受益于最新技术的一个领域是finfet中的栅极结构,与之前的2D晶体管设计相比,它大大降低了泄漏电流。

“说到‘高性能’,人们通常想到的是强大的功能,”Cadence Digital & Signoff集团产品管理总监Jerry Zhao说。“你基本上需要有强大的动力才能达到这样的性能,就像小型跑车一样。他们燃烧大量的汽油或电池,所以他们可以跑得更快。如何克服所有的挑战是我们作为工程师需要一起寻找解决方案的事情。得益于代工厂的制造技术,以及7纳米和5纳米的领先公司,finFET技术大幅削减了一个非常重要的功率组件,即泄漏。这就是先进技术帮助我们的地方,这也给了我们一些回旋空间,可以在动态方面浪费一定的能量,这样你就可以跑得更快,更快地推动电子设备。就芯片设计而言,电网传输网络,从电池到电路板再到封装,最终到达处理器。这是非常复杂的,每一种电源都可能有特定核心或特定功能的独特电源域,你可以打开或关闭它们。”

但在设备缩放方面,没有一种技术是永远有效的。泄漏在16/14纳米处得到控制,但在10/7纳米处又开始蔓延。减少泄漏的下一代技术将是gate-all-around场效应晶体管,其中可能包括水平纳米线或纳米片。目前还不清楚何时会引入,但目前的想法是,技术将开始出现在5nm或3nm,这取决于使用的是谁的工艺定义。

没有处理器能避免电源问题
但是,这不仅仅是关于流程节点。高性能计算使用了多种处理器类型,所有这些处理器类型都存在与功率相关的挑战。

英特尔公司产品营销高级经理迈克·汤普森说:“目前数据中心的大多数服务器都是用英特尔x86处理器实现的,并围绕它构建了许多专门的功能。Synopsys对此.“这些专门的单元往往是独一无二的,因为它们是针对某个应用程序的。我们有客户在做网络处理器,非常高性能的主干处理器,在大阵列中,因为任务非常并行。还有其他公司在做科学计算,在那里,你通常不会并行任务,所以他们寻求非常高的性能。它们倾向于使用数组,最多16或32个处理器的数组。同样,这取决于任务,因为任务必须在某种程度上是可并行的,以利用不同数量的处理器来进行对称处理,所以他们需要更深入的管道和最大的性能。总有团队在寻找性能最高的处理器,但这是一种非常不同的方法,因为他们正在寻找一个更深层的管道。通常是超标量对偶问题。有时他们在寻找一个多线程,其他时候不是。如果你有很长的遗留问题,多线程当然是有帮助的,但很多时候他们都在寻找方法,让内存尽可能接近处理器,并尽量减少它们必须离开处理器的范围。”

在这些情况下,性能始终是主要问题,但功率仍然很重要。“力量不容忽视,”汤普森说。“人们总是担心功耗,处理器附近保存的数据越多,功耗方程就会越好。”

与此同时,Swinnen指出,高性能社区对所有这些电源问题的关注是,电源管理往往会通过降低性能来影响性能,而他们不喜欢这样。“关键是如何管理电源,同时保持性能。”

他说,电源/性能管理有非常实际的影响。Swinnen说:“例如,一家公司设计了一款工作频率为3GHz的高性能芯片,但当它从硅芯片中回来时,它只运行在2.7GHz。”“他们不能让它跑得更快了。的原因吗?IR丢包失败。电网过度下垂导致计时变慢他们无法让芯片全速运行。这里需要注意的最重要的一点是,这款芯片已经通过了IR drop的所有传统认证方法,并出色地通过了所有测试,但从硅芯片上回来后,它仍然失败了。”

还有许多其他类似的情况表明,这是一个全行业的挑战。

Swinnen解释说:“为了解释这一点,该工具必须能够说明,如果电压下降了一点,是什么原因造成的。电压可以有很多小的增量。有成千上万种可能的小电压,而您的库只能在一个、两个或三个电压点上进行描述。这些工具需要做的是插值。对于1伏的电压库,你需要在0.9伏和0.8伏进行表征,然后在1.0到0.8伏之间的任何电压降都需要内插来预测时间。”

古普塔说,即使是像gpu这样以前可能不会遇到电力瓶颈的处理器,也给工程团队带来了新的挑战。“一般的看法是,gpu的标称电压在1伏左右,甚至在7纳米处也在0.8伏左右,而移动设备在7纳米处的电压显然在600毫伏以下。但是一些GPU人员告诉我们,当你看到越来越大的设备时,它们正在触及功率极限,因为现在你可以在7纳米芯片上比10纳米芯片多装入数十亿个晶体管。然而,当你看一下整体功耗时,就像移动设备在上一代之前就已经达到了功耗极限一样,现在GPU设备也开始达到功耗极限了。”

这对GPU设计有重大影响。

“在移动世界中,我们已经看到在名义电压下运行的情况一直在下降,因为你必须在一个电源范围内运行,但现在即使是gpu也可能被迫这样做。如果gpu开始从800毫伏下降到600毫伏,那么即使是gpu也会开始考虑电压对时序、进程变化的影响,以及移动领域面临的所有挑战。”

Cadence的Zhao表示,高性能处理器也是如此,包括那些针对人工智能应用的处理器。“任何高性能处理器,如人工智能芯片,以及过去几年的比特币挖矿芯片,都达到了功耗极限,因为它们执行的计算和活动非常快。而且有很多这样的事情同时发生,它们会消耗大量的能量,这反过来又会增加模具上的温度,并需要进行热分析。”

结论
在高级节点中,电源是一个令人头痛的问题,在高性能计算领域更是一个特别棘手的问题。但这个问题没有简单的解决办法,也没有什么高招。

“设计经理有时会说,‘哦,这个技术只能帮我节省2%,那个只能帮我节省5%,那个只能帮我节省3.5%。他说:“你从清单上往下看,没有一项能节省50%或60%的电力。当你走到清单的最后,似乎没有什么值得做的事情,但这些是你唯一能做的事情。在每个阶段,都要仔细关注功耗,并在每一步都采用适当的低功耗设计技术,这样到最后,你就有了一个低功耗芯片。这不是单一的活动造成的。他们都在一起。”

有关的故事
云驱动网络芯片架构的变化
新的数据流、更高的开关密度和IP集成在整个设计流程中产生了问题。
数据中心实力即将崛起
向云模式的转变控制了电力消耗,但这种好处可能已经结束了。
处理移动到边缘
定义因市场和供应商而异,但数据爆炸需要在本地进行更多的处理。



留下回复


(注:此名称将公开显示)

Baidu