中文 英语

人工智能功耗暴增

指数级增长是不可持续的。但这一切都将走向何方?

受欢迎程度

机器学习正在消耗所提供的所有能源,这是一种昂贵、低效且不可持续的模式。

在很大程度上,这是因为这个领域是新的、令人兴奋的、快速增长的。它的设计是为了在精度或性能方面取得新的突破。今天,这意味着更大的模型和更大的训练集,这需要处理能力的指数级增长,并在数据中心中消耗大量的能量来进行训练和推断。此外,智能设备开始无处不在。

但集体力量数字开始让人们感到恐惧。在最近的设计自动化会议上,AMD首席技术官Mark Papermaster展示了ML系统的能源消耗(图1)与世界能源生产的对比。

图1:ML的能耗。来源:AMD

图1:ML的能耗。来源:AMD

Papermaster并不是唯一一个发出警报的人。“我们已经忘记了,在过去100年里,创新的驱动力一直是效率,”percepter的首席执行官史蒂夫·泰格(Steve Teig)说。这就是摩尔定律诞生的原因。我们现在处在一个反效率的时代。”

还有阿尔特·德赫斯,董事长兼首席执行官Synopsys对此他代表地球植物恳求我们做点什么。“有头脑去理解的人应该有心去帮助。”

为什么能源消耗上升得如此之快?“神经网络的计算需求是无法满足的,”Ian Bratt说手臂.“网络越大,结果越好,你能解决的问题也就越多。能量的使用与网络的大小成正比。因此,节能推理对于采用越来越复杂的神经网络和增强的用例(如实时语音和视觉应用)是绝对必要的。”

不幸的是,不是每个人都关心效率。Mythic公司负责产品和业务发展的高级副总裁蒂姆·韦林(Tim Vehling)说:“看看那些超大规模的公司都在努力做什么,他们都在努力获得更好、更准确的语音识别、语音识别和推荐引擎。”“这是一个货币问题。他们获得的准确率越高,他们可以服务的客户就越多,他们就能产生更多的利润。你可以看看这些非常大的NLP模型的数据中心训练和推理,这是消耗大量能量的地方。我不知道是否有任何真正的动机来优化这些应用程序的功率。”

但有些人确实在乎。Synopsys的科学家亚历山大•韦克菲尔德(Alexander Wakefield)表示:“这些公司在减少碳排放方面存在一些商业压力,不是直接的金钱压力,更多的是消费者只会接受碳中和的解决方案。”“这是来自绿色能源方面的压力,如果其中一家供应商说他们是碳中和的,更多人可能会使用他们。”

但并不是所有的能量都被云所消耗。越来越多的智能边缘设备也导致了这个问题。Aspinity战略和技术营销总监马西·韦恩斯坦(Marcie Weinstein)说:“物联网由数十亿台设备组成,在不久的将来,它们使用的电力将超过我们在世界上产生的电力。”“它们消耗电力来收集和传输,并对收集到的所有数据做任何他们需要做的事情。”

图2:边缘处理效率低下。来源:Aspinity / IHS / SRC

图2:边缘处理效率低下。来源:Aspinity /IHS/SRC

还原能力
过去,科技界依靠半导体缩放技术来提高能源效率。“我们的工艺技术正在接近物理的极限,”迈克尔弗兰克说,研究员和系统架构师Arteris IP.“晶体管的宽度在二氧化硅的10到20个晶格常数之间。我们有更多带有杂散电容的电线,在充电和放电这些电线时损失了很多能量。在进入非线性区域之前,我们不能显著降低电压,在非线性区域中,操作的结果是统计描述的,而不是确定性的。从技术的角度来看,我并没有给我们很好的机会。这是一个概念的证明,它消耗了大约20瓦,完成了所有这些事情,包括学习。这就是大脑。”

那么ML是否比替代方法更有效呢?“必须从其应用系统的角度来考虑ML的功耗,其中的权衡取决于包含ML所获得的整体性能收益与整个系统的功耗配置,”ICVS的产品经理Joe hupsey说西门子EDA.“在许多应用领域,业界已经开发出高效的ML fpga和asic,以降低训练和推断中的功耗,并且有很多持续的投资来延续这一趋势。”

有一种影响可能会迫使人们更加关注权力。Synopsys的科学家戈德温·马本(Godwin Maben)说:“由于热能,一些公司正在关注每平方微米的功率。”“每个人都担心炎热。当你把很多栅极堆在一个小范围内,功率密度就会很高,温度就会上升,就会接近热失控。功率密度现在限制了性能。作为EDA供应商,我们不仅仅关注功率,因为当涉及到热时,每瓦性能以及每平方微米每瓦性能就变得非常重要。”

看这个问题有几种方法。西门子EDA HLS平台总监拉斯•克莱因表示:“我通常喜欢看每个推断的能量,而不是功率。”“看权力可能会有点误导。例如,CPU通常比GPU消耗更少的能量。但是gpu的推理速度比CPU快得多。结果是,如果我们观察每次推理的能量,gpu可以使用CPU所需能量的一小部分来执行推理。”

哪里消耗的能源最多尚不清楚,虽然这看起来很明显,但结果却颇有争议。有两个轴需要考虑——训练与推理,边缘与云。

训练与推理
为什么训练要消耗这么多能量?Arteris的Frank表示:“当你多次迭代同一个数据集时,会消耗大量能量。“你是在做梯度下降类型的近似。该模型基本上是一个超维曲面,你正在做一些梯度,这是由微分商在多维向量空间中下降定义的。”

这样做所消耗的能量正在迅速增加。Synopsys的Maben说:“如果你看看两年前训练一个模型所消耗的能量,你会发现一些变压器模型的能量在27千瓦时的范围内。“如果你看看今天的变压器,它超过50万千瓦时。参数的数量从5000万增加到2亿。参数的数量增加了四倍,但能量的总量增加了18000倍。在一天结束的时候,归结起来就是碳足迹,以及这会产生多少磅二氧化碳。”

这和推理相比如何?Tensilica AI产品的产品营销总监Suhas Mitra说:“训练包括向前和向后的传递,而推断只是向前的传递。节奏.因此,推理的能力总是较低。此外,在训练过程中,很多时候批量大小可能很大,而在推断中批量大小可能更小。”

当您试图估计两个函数所消耗的总功率时,就会引起争议。Maben说:“关于训练和推理,哪个消耗更多能量还存在争议。”“训练一个模型需要消耗大量的能量,基于这些数据进行训练所需的天数也非常多。但它会比推理消耗更多能量吗?培训费用是一次性的。你在训练上花了很多时间。训练阶段的问题在于参数的数量,有些模型有1500亿个参数。”

此外,训练往往不止一次。Mythic公司的Vehling说:“训练不是一次性完成就不会再回来的。“他们不断地重新训练,重新优化模型,所以训练是持续的。他们不断地调整模型,找到增强的地方,数据集也得到增强,所以这或多或少是一个持续的活动。”

然而,推论可以重复多次。“你训练一个模型,这个模型可能是为自动驾驶汽车开发的,现在每辆车都使用这个模型,”Maben补充道。“现在我们谈论的是在1亿辆汽车上进行推理。有一种预测是,超过70%到80%的能量将被推理消耗,而不是训练。”

有一些数据支持这一点。"最近来自东北大学和麻省理工学院的研究,据估计,推理对能源消耗的影响要比训练大得多,”Untether AI的高级产品总监菲利普·勒维尔说。“这是因为模型是专门为推理而构建的,因此在推理模式下运行的频率远远高于训练模式——本质上是训练一次,到处运行。”

云与边缘
将应用程序从云转移到边缘可能有许多不同的原因。Expedera营销副总裁保罗•卡拉祖巴(Paul Karazuba)表示:“市场已经看到,有些活动更适合被推向边缘,而不是云端。”“我认为,在边缘地带应该做什么,不应该做什么,以及如何做出这些决定之间,没有明确的界限。我们看到人们希望在前沿领域有更多的人工智能,我们希望在前沿领域有更多的关键任务应用,而不是把人工智能当作盒子外面的邮票。人工智能实际上是在设备中做一些有用的事情,而不仅仅是在那里。”

这并不像你把一个云模型移到边缘。Mythic公司的Vehling说:“假设你有一个自然语音识别应用程序。“你是在云中训练这些模型。大多数时候你都是在云中运行这些模型进行推断。如果你看一下边缘的推理应用程序,不是基于云的,你为那些本地资源训练模型。你要解决的几乎是两个不同的问题。一个是基于云的,另一个是基于边缘的,它们不一定是相互关联的。”

在构建模型时,必须知道它们最终将在哪里运行。“你通常会发现在云中运行着数十亿个参数模型,但这只是模型的一类,”Vehling补充道。“在另一个极端,你有非常小的唤醒词模型,占用非常低的资源——称它们为小毫升或更低。然后在中间是模型的类别,比如视觉分析模型,你可能会在基于摄像头的应用程序中看到。它们比云中的模型小得多,但也比这种非常简单的唤醒词大得多。”

在边缘的不仅仅是推理。我们可能会看到越来越多的培训。“联邦学习就是一个例子,”Expedera的首席科学家Sharad Chole说。“自动补全就是其中一个应用领域。每个人的自动补全功能都是不同的,你是如何做到这一点的?你怎么调整它?这必须在保护用户隐私的同时完成。挑战是存在的。”

提高效率
将应用程序从培训系统转移到边缘涉及到一个重要的软件堆栈。“一旦你通过了最初的训练阶段,后续的优化将带来更轻的模型,性能几乎没有下降,”西门子的hupsey说。“模型简化技术用于降低推理过程中的功耗。量化、权重修剪和近似在模型部署之前的训练之后或训练期间被广泛使用。两个最明显的例子是TinyML和GPT-3的轻版本。”

克莱因补充说:“辍学和修剪是一个好的开始。量化到更小的数字表示也有帮助。如果采取激进的做法,可以使网络的规模减少99%或更多,并导致在许多情况下准确率下降不到1%。有些人还考虑在模型中权衡通道与层,以产生更小的网络,而不影响准确性。”

这些技术既减少了模型尺寸,又直接降低了能量需求,但还有更多的改进可能。Expedera的Chole说:“现在我们看到了对混合精度的支持,每一层都可以量化到不同的领域。“这可能会被进一步推动。也许未来每个维度的权重都可以量化到不同的精度。这种推动是好的,因为在训练过程中,数据科学家会意识到他们如何降低功耗,以及他们在降低功耗的同时所做的准确性权衡。”

结论
为了获得更高的精度,模型变得越来越大,但这种趋势必须停止,因为它消耗的能量不成比例地增加。如今,云计算由于其商业模式的原因可以承受这样的代价,而边缘计算则不能。随着越来越多的公司投资于边缘应用,我们可以预计,能源优化将得到更大的重视。一些公司正在考虑在未来5年内裁员100倍,但这远远不足以阻止这一趋势。

相关的
降低人工智能能耗的11种方法
将人工智能推向边缘需要新的架构、工具和方法。
转向数据驱动的芯片架构
重新思考如何提高半导体的性能和降低功耗。
如何优化处理器
处理器设计至少有三个体系结构层,每一个都起着重要的作用。



2的评论

大卫年代 说:

历史上,世界能源产量何时出现过停滞?50年没动了,史上最烂的稻草人。

我们需要让人工智能更强大,这样它才能开发戴森球技术。否则它会发现人类太不可靠,无法依赖于他们的能量需求。

布莱恩•贝利 说:

全球电力产量以每年约3%的速度增长,因此与AI/ML的消耗相比,它是持平的。

留下回复


(注:此名称将公开显示)

Baidu