更多的数据驱动关注IC能源效率

决策影响如何,何时、何地和数据处理。

2021年4月8日—:安Steffora Mutschler

计算工作负载越来越相互依赖,提高芯片架构师,因为他们工作的复杂性水平准确位置,计算应该做和如何优化能源利润率萎缩。

在基本层面上,现在有更多的数据来计算,得到的结果更加紧迫。这种情况迫使反思多少数据应该移动,当它应该感动,和多少能量都是各种功能,有时分开,有时互相依赖,经常以不同的方式优先。

公式可以有很大区别,这取决于数据处理。例如,在一个周围移动数据数据中心估计有10%到40%的总消耗数据中心能源,这一比例预计将增长需要处理的数据量继续飙升。

“有显著增长数据多年来有一段时间了,和网络设备有特殊的影响”Scott Durrant观察云DesignWare IP段营销经理Synopsys对此。”我们把网络上越来越多的设备,如视频监控摄像头、交通摄像头,制造控制系统等,这些设备是推动网络数据流量,因此数据移动,在非常重要的方面。”

每一天的每一分钟,超过500小时的视频被上传到YouTube上,每天超过十亿小时的视频来源于YouTube。流媒体视频和社交网络是两个关键因素的网络流量,Durrant表示。

但它不再仅仅是一个数据中心的问题。整个边缘的扩建正在发生,因为它需要很长时间才能得到结果,如果所有数据发送到云,和需要太多的能量驱动信号来回。处理数据接近源可以在能源消费有很大的影响,性能,在移动设备的电池寿命,以及主机的物理效应会影响从电路老化和信号完整性到终端产品的整体竞争力。

“计算引擎速度越来越快,比如人工智能加速器,他们需要更多的带宽,只有几个很好的内存解决方案,将工作,”史蒂文说哇,研究员、著名的发明家Rambus。“这意味着你必须移动数据时,你想要尽可能的能效。一旦你得到你的芯片上的数据,你尽量不要移动它。一些设计师要做的是保持固定的一些数据,但改变计算的数据,因为它是更容易做到这一点。最好是有计算资源都在一个地方,不要移动数据比有独特的和专用的资源和运输数据之间来回小计算单位。”

图1:数据访问和运动控制功耗。来源:马克·霍洛维茨ISSC 2014 / Rambus

在上面的柱状图中,而大部分是蓝色的,红色的点代表将两个数字相加的总能量。蓝色的部分是所有的能量获取两个数字,移动计算引擎,和控制添加操作。吴指出,“有趣的部分是蓝色部分的酒吧叫做“注册文件访问。“这显示了能量来访问数据,如果数据是在芯片上登记(6 pj,或焦耳)。在最右边的表在酒吧,你可以看到更多的能量需要你如果数据加在一起是存储在其他地方,像一个缓存(一系列10 pj - 100 pj取决于缓存的大小)。有点奇怪的是如果数据碰巧在DRAM——这是1.3到2.6 nanojoules (nJ),这是接近1000倍的能量。如果数据是在DRAM,然后第二段的条形图会从6新泽西~ 2 pj,约合333 x不再是它的大小。数据移动能源将沼泽所有其他能源。这就是为什么访问DRAM以智能的方式是如此重要——它不能避免,但是一旦你从DRAM获得数据,你需要确保你重用它尽可能多摊销高能源需要访问它。”

移动数据成本能源和需要时间,所以处理数据并摆脱什么不是有用的可以对性能有很大的影响和权力。发回“一旦你有能力更有意义的数据量较小的CPU,那么CPU,试图抓住它,只要它可以,和可以执行技术像重量固定或类似的东西,它拥有数据和试不要移动它,”他说。“你希望在所有的这是最小化数据在磁盘的运动。一旦你得到更有意义的东西,你可以发送回处理器没有浪费带宽,因为你只发送有意义的东西,然后处理器会抓住它,只要可能,尽量不要移动它。所有这些都旨在减少数据移动。”

这对汽车应用程序是一个大问题,例如,因为传感器产生的数据量。在一个ADAS系统,必须占大量的传感器输入,和一些需要处理的,包括流媒体视频目标检测和分类。大量的数据快速进出。

“移动数据占用大量处理器之间的权力必须发出指令,指令移动数据,以及互连线的切换,”乔治解释说,产品营销主管Tensilica Xtensa处理器IP节奏。“还有,总是有一些开销的处理器不得不等待数据。但是这些数据被转移,所以在某种程度上就像能量的使用并不是被好好利用。不是有很多处理数据时发生移动。只是等待数据。”

这些问题是可控的过去,当数据量小,但他们一直稳步增长计算密集型应用程序等人工智能和数据分析变得更加普遍。

“问题已经存在了很长一段时间,但是现在我们看到一些解决方案曝光,“根据Anoop萨哈,主管战略和增长西门子EDA。“关键的问题是如何影响芯片的设计,以及它如何影响系统架构师的思考方式经历这一过程。如果你看看SoC,系统架构师的角度来看,数据捕获从一个来源。例如,车载数据来自摄像机和其他传感器。在智能手机中,数据来自互联网或用户所做的东西。一旦捕获数据,存储系统从那个地方,然后计算数据计算引擎。在这种情况下,移动数据跨多个阶段。有把精力花在移动的数据从源数据存储,然后从存储到内存的多层,在芯片内甚至在你单位的实际计算。能源效率是非常不同的在移动数据根据数据从内存芯片- L1缓存的计算单位,L2高速缓存计算单元,与片外数据从多少DRAM芯片上的计算。有一个数量级的差异,但是你不能拥有一切在一个芯片。 At the same time, on-chip memory has limitations. It’s expensive, you cannot have DRAM in the SoC. You have to balance between how much you can store off-chip, and how much you can store in the different levels of cache, and how to do the compute.”

这些权衡是加剧了记忆的平衡考虑。“下一波创新、内存需求是由大数据驱动的应用程序在所有细分市场——汽车、5 g, AI,“Anand Thiruvengadam说,产品营销总监定制设计和验证小组Synopsys对此。“这些都是主要的驱动程序。一个必然的结果是大型计算的出现。大数据。你用它做什么?你必须计算,所以你需要很大的计算。这些应用程序,激发了新架构的出现在计算方面。例如,不仅创新对CPU架构,但是现在GPU,目前加速度的支柱。同时,处理器的出现像DPU数据中心具体计算。”

推动定制支付大量股息的能力和性能。”AI和ML,甚至HPC市场的优势有定制的硬件来运行您的特定的算法或特定的架构非常大,他们实际上他们不想使用标准的现成的硬件如果他们没有,”马克Swinnen半导体产品营销主管有限元分析软件。“所以在那些市场,或在大市场驱动很多半导体设计这些天,他们还想要定制的硬件架构。”

反过来,对不同的内存选项开启了大门。“大计算上升的挑战,它指向对内存的需求,“Thiruvengadam说。“与大数据应用程序必须处理更多的数据,传统的冯诺依曼体系结构是瓶颈。你现在需要移动大量的数据在内存和计算之间来回,所以花在它的能量成为限制因素。这是加速了什么摩尔定律扩展已经放缓下来,转移到下一个节点不仅是更昂贵,但它并不省电。所有这一切导致新的计算架构的出现,和内存架构以内存计算和内存计算等,主要为人工智能本质上已经成为主流。”

改变处理的地方
在宏观尺度上,关注能源和延迟创造了一个巨大的机会去做更多的计算边缘使用专门的架构。

”而不是大量的数据移动很长的距离,你试图有效分区处理,做足够的加工优势,所以您发送的数据更优化了你真正需要发送,”阿什拉夫Takla说,公司的首席执行官Mixel。

但即使在边缘,改变是必要的。“铲数据开关芯片非常饿,”Simon segar表示,首席执行官手臂。“把它从内存到芯片从能源的角度来看是非常昂贵的。”

面临的挑战是找出一种方式将数据尽快到芯片,利用一切必要之前发送,然后取代它与其他数据。这是特别困难的,图形和机器学习,因为都需要非常大的数据集。

“集中计算与加载存储能源使用是我们专注于从一开始,”杰姆戴维斯说,副总裁和总经理对机器学习的手臂。“事实上,我们使用压缩在gpu在几个不同的地方,和我们继续与我们神经网络过程,是一个反映。我们可以把它压缩和解压比需要更少的能量压缩加载和存储它。它也会影响我们的缓存架构。加载和存储而言,一个关键指标的转专业设计的次数是一个特定数据的加载,或者存储——但很特别从内存加载到芯片。我们密切跟踪模拟和原型,以及智能运动数据。众多小处理器内部其他处理器设计正是来驱动。实际的智能移动数据对整个能源使用是至关重要的,这是一个转专业的关键因素之一。为什么你会使用一个转专业而不是CPU ?因为它是更有效的。”

segar表示移动数据、缓存中缓存的层次结构,和影响系统的了解都是至关重要的。“这就是架构和设计哲学不仅仅是指令集的结构和设备的人。3 d堆叠,之间你可以连接的高带宽内存或事实上不同的过程在不同的堆在一个3 d模具将会是一个超级重要的技术跟上提供越来越多的性能与每个进程的一代。人们谈论的摩尔定律已经在晶体管扩展,但对我来说,进入三维空间将是其中的一个领域,帮助性能不断改进一代又一代。”

新的权衡
有这么多考虑现有的和新的挑战,使适当的权衡是至关重要的。

“理解权衡,我们需要考虑包括不同的系统实现,”拉梅什Chettuvetty说,高级营销主任和应用程序英飞凌科技。“在分布式云计算系统的情况下,计算工作负载分区和云计算之间的边缘节点,考虑几个因素包括应用程序的延迟需求,总功率效率,在边缘设备,电力供应等。大多数时候,一级数据分析处理的边缘设备的源数据,以节省能源和减少数据传输带来的延迟。然而,在边缘设备上增加计算工作量增加他们的成本电力消耗。这里的权衡优化整个系统成本、电力和性能。对于某些应用程序考虑延迟和数据机密性大于成本/力量权衡。”

如果设备被认为是一个独立的系统,功率降低是通过优化分区和数据存储元素的分布。所以经常访问的数据存储接近处理单元,虽然经常被访问的数据的数据。越接近数据源计算引擎,降低数据传输所带来的能量损失。因此,系统通常采用分层记忆的方式与L1(频繁的数据),L2(少数据),每个处理单元和L3缓存元素联系在一起。

中央处理单元嵌入更多的内存,然而,是昂贵的和通用的soc不是最优选择。另一种方法是将分布式计算元素嵌入内存设备本身。借此更进一步,创新方法像内存计算正在探索几个人工智能计算工作负载。

”通常是在系统成本的权衡和功率效率,“Chettuvetty说。“决策包括回答问题,多少应该嵌入在中央SoC存储?L1 / L2和L3缓存分区应该是什么?应该有共享存储(缓存一致性)计算元素之间?我们应该使用一个内存与分布式计算元素吗?这意味着通用SoC需要确定最优数量和分区的存储计算元素SoC进入最好的服务应用程序。对于定制asic意味着为目标应用程序,分区比通用soc决定要容易得多。”

添加一个全新的定制设计使用多个芯片方面权衡涉及权力和性能以及各部分之间如何交互。“这是整个chiplet讨论的一部分,“说Ansys同化。“一个罗马数字(multi-chip模块)使用标准的芯片,通过标准I / O接口进行通信,也可以安装在印刷电路板上。但chiplets背后的想法,已经意识到只有通过垂直整合公司到目前为止,是你真正降低inter-chip沟通的力量。而不是使用标准I / O驱动程序,使用更低,高速协议只适用在几毫米。这就是他们试图解决移动数据的取舍。但除非你构建自己的所有元素——芯片本身,所有相邻的芯片,所以他们一起工作因为你设计他们一起工作,很难协调跨异构的行业。”

优化计算为特定应用程序添加其他挑战,。“在芯片方面,它是一个工程学科。另一方面是该算法专家了解面具是谁,他们想要做什么,”迈克尔·弗兰克说,研究员和系统架构师Arteris IP。“TensorFlow(机器学习从谷歌的开源平台),是一项重大偏离最初的人在做什么,特别是在机器学习,减少一些线性代数的操作序列,这很好理解。他们可以复制的,所以现在你可以建立一个引擎Google这样TensorFlow加速器。但这是一个多学科的努力。你需要有一个团队,有知识的算法。你需要工程师知道内存架构,记忆功能,你需要硅工程师知道过程。”

进一步复杂化的事情。“这些球队需要搭配加速器工程师,他们的算法。他们会建立自己的小油门,试图优化内存流,但从来没有闯入记忆领域,”弗兰克说。“这是另一个方向是相同的。问题是这些典型的顺序的算法,我们在过去的好时光的线性代数,图形,和计算过程,并没有真正适合于集成与记忆。如果你看看诸如内存访问模式,经常访问模式是由一个处理器的有序性CPU、运动指令的指令。这种计算模式把内存应该传递数据的方式。它把整个人们思考的方式构建层次结构。”

大局,真正需要了解芯片设计团队让他们权衡类似于购买高价商品。“你需要知道价格,什么是可用的,”他说。“要成为一名建筑师的基本部分。你需要知道什么是可能的。你需要知道什么技术可以提供。与此同时,你必须愿意使用非常规的事情。有时你不得不说:“是的,我知道这可能是一个愚蠢的想法,但是让我们看一看它。这是工程的部分起作用的地方。当你需要知道什么是可用的,您还需要有一种方法来定义你的成本函数,而你需要知道你能负担得起。然后,你必须有一个概念,什么是你想要的。另一边,特别是在计算,你需要一个体面的基准测试可以运行。 Part of architecting is innovation and inspiration. A lot of it is knowing what is out there, to know the history, otherwise you have to repeat it. Next, be innovative and creative, which sometimes means you have to think out of the box.”

各级决策需要,西门子EDA的萨哈说。“有决定在SoC架构师级别如何创建体系结构,以及如何玩微体系结构。也有验证工程师决定,因为现在他们必须验证所有体系结构的变化实际上提高性能和能源效率。现在越来越多的建筑师更多的谈论能源效率不仅仅是生的PPA、性能或吞吐量或延迟。这是所有这些一起考虑。这是部分由人工智能以及巨大的投资网络、存储和计算,以及如何处理数据。这影响你设计的东西,多早你衡量的东西。你不能太迟在测量的东西。你必须尽早完成。你能轻易地尝试一个架构?你如何衡量能量?和你如何衡量能源方面的一切吗?一旦你有了所有这些碎片在一起,然后你让你的真正的体系结构决策应该是什么。”

有一组明确定义的需求理解是至关重要的一个设计团队将使用标准。“当用户做了,事情往往是非常成功的,因为每个人都有一个具体的目标和指导方针,“节奏的墙说。”工作的工程团队可以根据他们的要求做前期,在定义的目标都是计算和数据吞吐量的角度来看,更容易。”

墙指出它有助于得不到包裹在一个电子表格的比较。“肯定有很多需要使用的量化标准,但有很多其他的少量化标准,进入一个决定,。这包括成熟的产品看,周围的软件工具支持的产品,供应商在市场上的声誉,最终用户。这些都是一些标准的工程团队应该看看。”

结论
从云边缘移动数据处理获得动力,但这还不足以。

“从系统级,我们需要做同样的事情,”Synopsys对此“Durrant表示。”而不是移动大量数据的基础设施,让我们移动基础设施接近的数据。在计算存储方法,例如,可伸缩的优化为嵌入式处理器使用,但它可以在这些设备中运行应用程序,可以把数据非常接近。您可以创建一个可伸缩的存储基础设施,可伸缩的电脑,与许多水平可伸缩性的做事,如加密和压缩的数据,做数据库键值存储卸载和视频转码。与大量的交通生成的视频,有很多代码转换,所有很多的处理。同时,存储设备,如果您可以保存另一个主机CPU往返,放在一个健壮的和可扩展的处理器内部存储设备本身,这在许多方面可以使计算更接近数据,并减少数据移动基础设施。”

不过,找到最优的权衡是很困难的。一切变化随着时间的推移,和新兴的技术,这些变化可能是巨大的。

安Steffora Mutschler

(所有的帖子)
安Steffora Mutschler在半导体工程执行编辑。

更多的数据驱动关注IC能源效率

安Steffora Mutschler

留下一个回复取消回复

知识中心的博客

云

数据中心

边缘计算

5克

数据分析与测试

体系结构

机器学习(毫升)

人工智能(AI)

内存

技术论文

热门文章

UCIe真的是通用的吗?

创业融资:2022年11月

周评:半导体制造、测试

强调在芯片影响高级节点的可靠性

3月向Chiplets

知识中心
实体,人们和技术探索

相关文章

基本的芯片架构的变化

内存设计优化系统性能如何

有限制的层数3 d-nand ?

创业融资:2022年10月

创业融资:2022年11月

强调在芯片影响高级节点的可靠性

机器学习反思

设计热

赞助商

最近的评论

关于

导航

与我们联系

更多的数据驱动关注IC能源效率

安Steffora Mutschler

留下一个回复取消回复

知识中心的博客

云

数据中心

边缘计算

5克

数据分析与测试

体系结构

机器学习(毫升)

人工智能(AI)

内存

技术论文

热门文章

UCIe真的是通用的吗?

创业融资:2022年11月

周评:半导体制造、测试

强调在芯片影响高级节点的可靠性

3月向Chiplets

知识中心实体,人们和技术探索

相关文章

基本的芯片架构的变化

内存设计优化系统性能如何

有限制的层数3 d-nand ?

创业融资:2022年10月

创业融资:2022年11月

强调在芯片影响高级节点的可靠性

机器学习反思

设计热

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索