中文 英语

转向数据驱动的芯片架构

重新思考如何提高半导体的性能和降低功耗。

受欢迎程度

数据的爆炸式增长正迫使芯片制造商重新考虑在哪里处理数据,对于不同类型的数据,哪种类型的处理器和内存是最好的,以及如何对原始数据和处理过的数据进行结构化、分区和优先级分配。

谷歌、Facebook、阿里巴巴和IBM等系统公司的新芯片都采用了这种方法。苹果(Apple)、三星(Samsung)以及许多汽车制造商开发的手机也是如此。这些设计方法正在被广泛采用。

其中许多变化都是渐进的。其他的,如存储器和网络接口卡,包含了某种程度的机器学习或者其他设备内处理,已经在研究中停滞多年,现在才开始商业化。总的来说,它们都指向了设计上的根本性转变,在相同或更低功耗的情况下,处理速度得到了数量级的提升。

这一转变为许多不同的选择打开了大门,每个选择都有自己的挑战。例如,如果电力传输网络不能同时为所有处理元素提供足够的电力,那么仅仅拥有更多高性能的处理器或更少的数据移动是没有帮助的。最重要的是,系统资源需求可能因应用程序而异。在某些情况下,数据可能需要保留、存储并保持10年或更长时间的可访问性,而在其他应用程序中,数据的部分或全部可能几乎立即被丢弃。

在基本水平上,变化大致分为三个大领域:

  • 处理速度更快,改进取决于处理器和加速器的数量和类型。
  • 更快的芯片内和芯片外数据吞吐量。
  • 提高能源效率,这取决于数据的结构,使用多少不同类型的数据,以及如何优先处理这些数据。随着越来越多的数据在边缘生成,这一点变得尤为重要,因为许多系统都依赖电池供电。

在所有设计中,数据都需要流入芯片或系统。从那里,必须对其进行适当的路由,根据特定应用程序的需要进行处理,并将其发送以进行进一步处理、存储或丢弃。所有这一切发生的数据源越近,延迟和整体能量消耗就越低。这在概念上听起来可能很简单,但实现起来可能很快就会变得非常复杂。这取决于具体的用例、芯片上或芯片外的各种依赖关系、上市时间设计限制,以及设计和制造成本预算、系统功率以及系统在不影响其他组件的情况下散热的能力。

“这需要一个完整的生态系统。手臂.“你想要移动数据,处理数据,你想要它是安全的,你想要它通过正确的内存管理来处理。理想情况下,您希望利用尽可能多的标准软件环境,因此您可能希望通过虚拟化来允许不同的计算核心处理它。当你推出软件时,你希望能够调试它,管理性能-并让客户可以使用其中的一些,而你可能希望为自己提供更深入的东西。所以你正在从更大的计算变量中进行异构计算,比如视频加速和机器学习。为了操作、移动和操作这些数据,你需要更多的硬件。硬件的数量提高了标准,所以当你构建一些东西时,你可以加速数据。”

许多最初的数据驱动架构都是为数据中心和大容量设备(如智能手机)开发的,在这些设备中,NRE成本可以更容易地得到证明。但这些概念正开始向大公司以外的领域传播。芯片制造商越来越多地定制系统,以便更有效地处理不同类型的数据。RISC-V它越来越受欢迎,因为源代码本身可以为特定目的进行修改,但它肯定不是唯一的一种。大多数其他处理器现在都提供了一系列定制选项,并且有一个相关的推动,即在许多这些设备中添加某种程度的可编程逻辑。

公司IP子系统的产品营销经理Rich Collins说:“我们尽可能地提高灵活性,我们一直都有能力抓住客户的加速器。Synopsys对此.“但现在我们看到越来越多的客户利用了这一点。人工智能是一个大的流行语,现在你可以把神经网络引擎连接到标准处理器上。”

这有助于更快地处理特定类型的数据,但这只是难题的一部分。软件定义的体系结构是第一步,有助于为特定的应用程序和终端市场定制设计。下一个重大转变发生在更高的抽象层次上,即确定数据在哪里被处理,不同的数据类型使用哪些硬件,以及数据应该如何移动、存储和确定优先级。

这需要重新思考系统中实际发生的情况,以及选择不同选项的后果。处理一些数据内存中near-memory减少了数据需要传输的距离,从而减少了移动数据所需的能量。

但它也开始模糊内存和处理器之间的界限,这种界限从计算早期就存在了。此外,这还增加了如何优先考虑处理在哪里完成,以及处理需要多快。并不是所有的东西都需要最快的处理速度。例如,车辆中的备用摄像头需要优先考虑,而使用同一信息娱乐系统的音乐选择可以等待。

“如果你有新的架构,内存和计算之间不再有区别,如果你有像神经网络这样的东西,那么我们将需要一种不同的方式来描述这些系统,”微软设计方法论部门负责人罗兰·扬克(Roland janke)说弗劳恩霍夫IIS的自适应系统工程部。“虽然不需要改变任务简介的格式,但你会看到系统结构或描述的不断改进。”

这一点在苹果当前的计算架构中很明显。英特尔IC EDA执行副总裁Joe Sawicki表示:“几年前发生的最令人惊讶的事情之一是,苹果成为第一家为应用处理器推出64位架构的公司西门子EDA.“在此之前,每次你想到64位的时候,它都是一个地址空间的问题,即能够管理更大的数据集,引入更大的软件。但苹果并没有这样做。他们这样做是因为这样能让他们更节能。它真正谈论的是在它上面设计软件堆栈的一个方面。”

这改变了验证设计规范的重点,将重点放在最终用户应用程序上。Sawicki说:“这是关于真正了解终端用户应用是什么。”“最终用户应用程序可能不仅仅是简单的数据处理。它可能涉及到与外部世界的接口,它正在改变设计和验证,因此它必须扩展并越来越多地处理在现实世界中运行的最终用户软件堆栈的那些方面,这是在设计方面进行更多的数据处理,在最终用户体验方面投入更多,并且在如何优化设计方面更加全面。”

数据吞吐量
为了实现这一切,数据必须智能、快速、安全地移动。

“我们仍然需要弄清楚如何正确地移动数据,”微软解决方案和生态系统高级集团总监Frank Schirrmeister说节奏.“它能移动多快,你把它放在哪里?”你在仓库里有吗?它必须通过花冠边界吗?或者更糟,一个包裹边界?这一切的影响有多大?这是数据和计算的协同设计,这是一个优化准则。这就是边缘计算存在的原因。如果我们能立刻把所有这些数据放到一个数据中心,那么我们就可以把所有的数据中心放在南极洲,在那里进行所有的计算。相反,我们必须谨慎地决定在哪里计算数据。你是在传感器上,在设备上,还是在远处? They all have different latencies and power and compute requirements. So you have to be very disciplined about how you design your application even beyond the data center.”

当然,设计仍然需要像复杂芯片那样进行标准检查,比如确保导线足够粗,以将电阻降至最低,从而不会产生过多的热量,或发出过多的电磁辐射来干扰其他信号。设计越复杂,使一切正常工作的挑战就越大。

“我们的业务是分析,其中很多是信号完整性、电磁干扰和电力数据,”该公司产品营销总监Marc Swinnen表示有限元分析软件.“一根慢速、短距离的电线不需要太多分析。一个简单的RC提取器就可以了。但是当你运行同样的高速总线穿过4或5厘米远的中间层时,你试图在那里挤进高速SerDes,分析部分变得更加关键,干扰模式也会增加。所以以前你不必担心的事情,特别是电磁干扰,变得更加重要,分析也会增加。”

此外,所有这些都需要在优先级和依赖关系的上下文中进行设置,这通常包括在芯片上和芯片外,甚至内部部署和外部部署路由数据。反过来,这要求在路由方面比过去有更大的灵活性。

公司董事长兼首席执行官K. Charles Janac表示:“在运行时存在动态路由机会Arteris IP.“我们一直抵制运行时动态路由,因为存在验证问题。如果你有数十亿的事务,如果你强迫流量每次都连接到一个连接上,验证就会简单得多。但未来有机会缓解这一问题,让NoC基本上能够基于某种路由控制器动态地重新路由流量,而这反过来又由一些全球软件控制。”

这需要一定程度的系统智能,从互连到网络接口卡和各种内存产品,系统智能已经开始全面体现出来。除此之外,芯片和系统架构也正在发生重大变化。

该公司技术、创新和系统副总裁Kamesh Medepalli表示:“如何构建架构以优化数据移动,应该从应用程序/用例的角度进行研究英飞凌科技美国.“对于本地传感器处理等应用,完全不使用太多存储,并在样品来临时处理将是有效的。对于IoT中的无线网络等应用程序,TCP拥塞控制协议固有地规定了某些内存需求,以实现最大吞吐量性能。最后,在确定最佳架构时,还需要考虑这些应用程序的性能与功耗之间的权衡。“

人工智能在许多设计中发挥着关键作用,推理算法的足迹越来越小,这一点越来越成为可能。不像过去,许多系统需要千兆字节的数据来进行推理,目前的想法是,可以使用更少的数据,更接近数据的来源,进行更有针对性的推理。这反过来又大大减少了处理它所需的能量。

Medepalli说:“本地推理不仅可以在本地智能地处理数据,还消除了将数据传输到云中所需的额外内存和电池消耗。”“根据所使用的应用程序和算法,边缘AI也可以通过减少功耗来实现良好的功耗/性能权衡静态存储器占地面积和片外内存,减少泄漏和产品成本。模拟人工智能的进步正在减少对数据转换/存储的需求。类似的神经形态计算在低功耗和内存计算下实现高性能人工智能。这些技术与片上安全、高性能非易失性存储器相结合,有助于提供先进的架构选项,以提高性能和功耗,同时为广泛的物联网应用提供成本效益。”

芯片上,芯片外,封装内
自引入计算技术以来,高效快速地移动数据一直是硬件设计团队关注的主要问题。的冯·诺依曼结构,再加上符合摩尔定律的持续工艺收缩,以及广泛的新材料收集,使性能和功耗都能不断提高。但是,单靠扩展本身已经无法在功率和性能方面提供足够的改进,而随着各地传感器产生的数据量持续飙升,这两者都至关重要。

这导致了芯片设计中最重要的架构转变之一,基于对移动数据有相关成本的认识。在云中处理所有数据并将其发送回终端设备可以降低终端设备的设计成本和材料清单,但它需要大量带宽和功率来驱动信号,并且会增加延迟。即使是片外内存也是如此,设计团队一直在努力解决不同功能和应用程序的可接受延迟量。

“其中一个挑战是,任何时候你都要移动数据和与外部芯片通信,这确实需要大量的电力,”Steven Woo说Rambus.“DDR5是业界的下一个主存技术,它更节能。它提供了更多的带宽,它是兼容的,非常类似于我们已经拥有的基础设施类型。从很多方面来说,这对汽车行业来说都是好消息,因为它确实满足了一个伟大转型计划的所有要求,同时也解决了性能和动力方面的问题。”


图1:使用HBM2、PHY和DRAM在2Gbps流工作负载下移动数据的成本,以及100%读或100%写的功率击穿。来源:Rambus

然而,并不是所有的技术都以相同的速度发展。这就是标准如此重要的关键原因。它们有助于消除这些差异,并在发布特定技术的新版本时提供向后兼容性。但是,由于有如此多的工作在进行,不同方法之间的界限越来越模糊,这些标准的努力在未来会取得怎样的进展还有待观察。

事半功倍
在新技术和新方法的漩涡中,一些旧的方法正在新的背景下被重新审视。以压缩为例,它曾经被视为移动大量数据的最佳方式。现在,有了更好的吞吐量,这就需要与压缩/解压所需的功率进行权衡。

Ashraf Takla,首席执行官Mixel,强调了一些挑战。“从系统的角度来看,你会在没有压缩的情况下使用高频四车道吗?然后,压缩之后,你需要更少的带宽,那么你该怎么做呢?你是降低速度,还是,比如说,减少车道数?通常,后者是更好的解决方案。你不是以较低的速度跑,而是以全速跑,但你减少了车道数,因为这不仅节省了电力,还节省了针数。”

这里的关键变量是数据移动。该公司产品营销经理乔•罗德里格斯表示:“对于控制器,有针数限制,但用户想要速度Rambus.“因此,我们试图根据需要从PHY中获得尽可能多的东西。然后,当涉及到用于显示技术的控制器时,我们确保显示流压缩引擎不仅能获得数据包信息,而且还知道哪些帧将进入它们的路径。当我们做硬DSC集成时,我们有一个可选的视频接口,它确实知道文件的可见性在那里是不存在的。因此,在提高后端吞吐量方面,视频接口对于简化集成和验证具有巨大的好处。”

增加晶体管密度只会增加复杂性。5nm和3nm的信号会受到物理效应的轰击,如EMI和各种类型的噪声,而且它们需要根据芯片一侧和另一侧可能不同的热梯度进行规划。将部分数据处理卸载到其他芯片和系统可以帮助限制这些对单个芯片的影响,但对更快的数据处理和数据移动的需求在各地都提出了挑战。

“带宽是显示技术的一个大问题,”Hardent IP产品副总裁Alain Legault说。“显示技术有四个维度。它有X和Y,加上像素深度和时间,我们一直在扩展所有这些。显示器分辨率越来越高。人们现在想要从8位到10位的视频,他们想要两倍于以前的帧率。随着16位变得越来越普遍,移动应用程序的目标是每秒120帧,带宽已经突破了顶峰。工程团队一直在寻找管理带宽的方法。视觉无损压缩是做到这一点的一个很好的方法。通过标准化的DSC压缩,我们基本上可以将视频压缩3倍,同时对图像质量没有视觉影响,这就是我们所说的视觉无损压缩。因此,我们通过巧妙地混合处理图像的不同方面的算法,有效地将带宽减少了三倍。”

当涉及到显示技术时,移动和处理数据的延迟有一些明显的影响。在增强现实和虚拟现实中,延迟会让用户感到恶心。在汽车应用中,延迟可能会导致事故。

结论
过去,半导体行业的大部分努力都集中在通过缩小功能来提高性能和降低功耗上,但随着摩尔定律的好处不断减少,重点已经转移到架构改进上。现在,随着在端点和边缘生成更多的数据,焦点再次转移到如何以最小的延迟和最低的能量处理不断增长的数据量。

设计团队现在正在努力寻找用最少的移动处理数据的最佳方法,以及如何对设计进行分区,以便首先和最快地处理最重要的数据。挑战并非微不足道,但智能和普惠计算的好处是巨大的,在可预见的未来,这种方法有望继续扩展到新的市场和应用程序。

相关的
新的架构,更快的芯片
大规模的创新驱动性能的数量级改进。
理解新的边缘推断架构
如何驾驭大量令人困惑的选择和术语。
芯片复杂性和未知因素的陡增
增加交互和定制会增加重新旋转或失败的风险。
架构知识中心
关于计算架构的特别报告、头条新闻、白皮书、视频和博客。



留下回复


(注:此名称将公开显示)

Baidu