中文 英语

为什么比较处理器如此困难

一些设计侧重于功率,而另一些则侧重于可持续性能、成本或灵活性。但是,为基于基准的应用程序选择最佳选项正变得越来越困难。

受欢迎程度

每一个新的处理器都声称自己是最快的、最便宜的或最省电的,但是如何衡量这些声称以及支持信息的范围从非常有用到无关紧要。

芯片行业在提供有信息的指标方面比过去困难得多。20年前,衡量处理器性能相对容易。它是指令执行速度、每条指令执行多少有用工作以及信息从内存中读取和写入的速度的综合。这与它消耗的电量和成本进行了权衡,而后者当然不是那么重要。

Dennard扩展许多市场的时钟速度不再提高,MIPS评级停滞不前。在架构的其他地方进行了改进,包括内存连接和添加更多的处理器。但是没有新的绩效指标被创造出来。

该公司高级副总裁兼总经理拉维•萨勃拉曼尼亚表示:“在过去20年的大部分时间里,市场一直保持着令人毛骨悚然的沉默西门子EDA.这种沉默是由英特尔(Intel)和微软(Microsoft)创造的,它们控制着计算机架构与运行在其上的工作负载(即应用程序)之间的契约。这在很大程度上推动了计算,尤其是企业计算。我们现在有一些非常特定的计算类型,它们更特定于领域或利基,脱离了传统冯·诺依曼结构.每秒每毫瓦每兆赫的数百万次操作已经趋于平稳,为了获得更高的计算效率,必须在工作负载所有者和计算机架构师之间建立新的合同。”

在试图测量处理器的质量时,考虑应用程序变得很重要。这个处理器执行特定任务的性能如何,在什么条件下?

gpu和dsp使行业走上了特定领域计算的道路,但今天它正在走向一个新的水平。Fusion Compiler的产品营销经理James Chuang说:“随着经典的摩尔定律放缓,创新已经转向特定领域的架构Synopsys对此.“这些新架构可以在相同的工艺技术上实现每瓦性能的数量级提升。它们为设计探索打开了一个巨大的未知空间,无论是在建筑层面还是物理设计层面。”

人们曾试图定义新的指标,以模仿前一个时代的指标。“人工智能应用需要处理器的某些特定功能,最明显的是大量的乘法/累加运算,”微软人工智能和软件及解决方案产品营销总监尼克•尼(Nick Ni)表示AMD的自适应与嵌入式计算组。“处理器定义了它们可以执行的每秒数万亿次操作(TOPS),这些评级一直在快速增长(如图1所示)。但从每瓦性能或每美元性能来看,真正的性能是什么?”

图1:AI TOPS评级的增长。来源:AMD / Xilinx

图1:AI TOPS评级的增长。来源:AMD / Xilinx

随着芯片尺寸达到了网线的极限,在一个芯片上添加额外的晶体管变得更加昂贵和困难,即使是工艺缩放,所以性能的提高只能来自架构的改变或新的封装技术。

多个较小的处理器通常比单个较大的处理器更好。将多个芯片放在一个包中还允许与内存和其他计算核心的连接进行架构上的改进。Synopsys的产品营销经理Priyank Shukla说:“你可能会把多个处理单元组合在一个包中,以提供更好的性能。”“这个包将有多个芯片,将作为一个更大或更强大的计算基础设施。这个系统提供了一种摩尔定律,这是行业所习惯看到的。我们正在达到单个模具无法提供性能改进的极限。但现在这些系统可以在18个月内将性能提升2倍,这是我们所习惯的。”

工作负载正在推动计算机体系结构的新需求。西门子的萨勃拉曼尼亚表示:“这些技术超越了传统的冯·诺依曼架构。“许多新类型的工作负载需要分析,他们需要创建模型。AI和ML基本上已经成为驱动模型开发的劳动力。我如何在训练数据的基础上建立模型,以便我可以使用模型进行预测?这是一种非常新型的工作量。这推动了一种关于计算机体系结构的全新观点。计算机体系结构如何与这些工作负载相匹配?你可以实现神经网络或者传统x86 CPU上的DNN。但是,如果你看看每毫瓦、每兆赫可以进行多少次操作,并考虑文字长度、重量和深度,通过将工作负载与计算机架构相匹配,它们可以以更高效的方式更好地交付。”

工作负载和性能指标因位置而异。Synopsys的舒克拉说:“超规模计算者已经提出了不同的指标来衡量不同类型的计算能力。”“最初他们谈论的是每秒千万亿次浮点运算,这是他们可以执行浮点运算的速度。但随着工作负载变得越来越复杂,他们正在定义新的指标来同时评估硬件和软件。不仅仅是原始硬件。这是两者的结合。我们看到他们关注一个被称为PUE的指标,即电力使用效率。他们一直在努力减少维护数据中心所需的电力。”

失去的是比较任何两个处理器的方法,除非在最佳条件下运行特定应用程序。即便如此,问题依然存在。处理器和使用它的系统能否长时间保持其性能?还是因为热而被节流?如果多个应用程序同时在处理器上运行,导致不同的内存访问模式,该怎么办?处理器在数据中心之外最重要的特性是它的性能,还是电池寿命和功耗,还是两者之间的某种平衡?

微软执行副总裁兼总经理Sailesh Chittipeddi表示:“如果你退一步,从一个非常高的层面来看,它仍然是关于以最低的功耗获得最大的计算能力。瑞萨的物联网和基础设施事业部。“所以你可以考虑你需要什么样的计算能力,以及它是否针对工作负载进行了优化。但最终的因素是,它仍然必须在最低的功耗。然后问题就变成了,‘你是把连接放在飞机上,还是放在外面。或者在优化能耗方面你该怎么做。这是必须在系统层面上解决的问题。”

衡量这一点是困难的。基准测试结果不仅反映了硬件,还反映了相关的软件和编译器,它们比过去复杂得多。这意味着特定任务的性能可能随着时间而变化,而底层硬件没有任何变化。

架构方面的考虑并不仅限于包的引脚。舒克拉说:“考虑一下用先进的智能手机拍照。“在捕捉图像的CMOS传感器中执行AI推理。其次,这款手机有四个核心,用于额外的人工智能处理。第三层发生在数据中心边缘。超级标量在距离数据捕获的不同距离上推出了不同级别的推断。最后,你将拥有真正的大数据中心。AI推理有四个层次,当我们考虑功率时,我们应该计算所有这些。它从物联网开始,从你手中的手机开始,一直到最终的数据中心。”

有这么多初创公司在开发新的处理器,许多公司的成功或失败很可能取决于软件堆栈的质量,而不是硬件本身。更困难的是,硬件必须在知道它可能运行的应用程序之前就设计好。在这些情况下,甚至不需要对处理器进行基准测试。

基准
基准测试旨在提供一个公平的竞争环境,以便可以直接比较两者,但它们仍然可能被操纵。

当一个特定的应用变得足够重要时,市场需要基准,以便对其进行评级。舒克拉说:“不同类型的人工智能培训都有基准。“ResNet是图像识别的基准,但这是性能基准,而不是功率基准。超规模计算将展示其基于硬件加软件的计算效率。有些人甚至构建了自定义硬件,一个加速器,它可以比普通GPU或基于普通fpga的实现更好地执行任务。TensorFlow就是一个与谷歌TPU相结合的例子。他们在此基础上对人工智能性能进行了基准测试,但目前权力还不是等式的一部分。主要是表现。”

无视权力是一种操纵。“2012年的旗舰手机的峰值时钟频率为1.4GHz,”华为技术副总裁兼研究员彼得·格林哈尔说手臂.“与此形成对比的是,如今的旗舰手机达到了3GHz。对于桌面cpu,情况更加微妙。虽然Turbo频率只比20年前高了一点,但cpu能够在更高的频率上停留更长时间。”

但并不是所有的基准测试都具有这样的规模或运行时复杂性,以至于无法达到这一点。PowerArtist产品管理主管普雷蒂•古普塔(Preeti Gupta)表示:“随着电力消耗,温度会上升。有限元分析软件.一旦超过一定的阈值,就必须降低性能(如图2所示)。功率、热量和性能是紧密联系在一起的。如果设计不考虑电源效率,就必须付出运行速度变慢的代价。在开发过程中,您必须采用真实的用例,运行数十亿个循环,并分析它们的热效应。看完热图后,您可能需要移动部分逻辑以分配热量。至少,你需要在不同的位置安装传感器,这样你就知道什么时候可以降低性能。”

图2:性能节流可以影响所有处理器。来源:有限元分析软件

图2:性能节流可以影响所有处理器。来源:有限元分析软件

随着时间的推移,架构会针对特定的基准进行优化。Synopsys的Chuang说:“基准测试在不断发展,并反映现实世界的使用情况,在系统软件层面或硅测试阶段,使用成熟的方法创建和部署相对容易。”“然而,分析总是在事实之后。芯片设计中更大的挑战是如何针对这些基准进行优化。在硅设计阶段,常见的功率基准测试通常仅由统计切换配置文件(SAIF)或非常短的样本窗口(实际活动(FSDB)的1到2纳秒)表示。更大的趋势不是“测量什么”,而是“在哪里测量”。“我们看到客户在整个流程中推动端到端功率分析,以准确地进行驱动优化,这需要从仿真、仿真、优化和注销中一致的功率分析主干。”

基准测试可以识别应用程序与运行应用程序的硬件架构之间的根本不匹配。AMD/Xilinx的Ni表示:“当你在某些架构上运行实际工作负载时,可能会出现大量的暗硅。“真正的问题在于数据的移动。你在消耗引擎的能量,这会导致低计算效率。”

即便如此,这也不是故事的全部。倪补充道:“越来越多的标准基准得到了人们的认可。”“这些都是人们认为最先进的模型。但是它们在运行您可能关心的模型时有多有效呢?绝对性能是多少,或者说每瓦的性能是多少,或者每美元的性能是多少?这决定了您的机柜的实际运营成本,特别是在数据中心。最佳性能或电力效率,以及成本效率,通常是两个最需要关注的问题。”

其他人也同意。“从我们的角度来看,有两个指标的重要性越来越高,”微软高级系统集成小组负责人兼高效电子部门主管安迪•海尼格(Andy Heinig)表示夫琅和费IIS自适应系统工程部.“其中之一是功耗或每瓦操作。随着能源成本的增加,我们预计这将变得越来越重要。另一个日益增长的指标是芯片短缺。我们希望销售设备数量最少,但性能要求最高的产品。这意味着需要越来越灵活的体系结构。我们需要一个性能指标来描述针对不同应用程序更改的解决方案的灵活性。”

芯片设计的一个关键挑战是你不知道未来的工作负载会是什么。“如果你不知道未来的工作负载,你如何设计与这些应用程序良好匹配的架构?萨勃拉曼尼亚问道。“这就是我们看到计算机架构真正出现的地方,从理解工作负载、分析和理解最佳类型的数据流、控制流和内存访问开始,这将极大地降低功耗并提高计算的电源效率。它实际上归结为你花了多少能量来进行有用的计算,以及你花了多少能量来移动数据?应用程序类型的总体概况是什么样的?”



2的评论

迈克•罗杰斯 说:

优秀的文章Brian,它创建了一个很好的镜头或框架来检查,比如当前大量关于苹果最新CPU vs英特尔和AMD的文章。我很想看到一篇关于“非范诺伊曼”机器和架构的具体文章,因为我已经对这方面感兴趣近20年了,因为我让加州大学伯克利分校的鲍勃·布罗德森(Bob Broderson)与我们的英特尔设计社区讨论了他自己开发的基于完全可重构架构的FPGA /非范诺伊曼学生的项目。

保罗·阿德里安·克莱米尔 说:

散热是一个大问题,消除风扇与石墨烯涂层的核心块的功率大大降低,所以另一个大的事情是寻找石墨烯的使用和采用。

留下回复


(注:此名称将公开显示)

Baidu