中文 英语

基准的问题

是什么造就了一个良好的基准和谁应该创建它?这是一个行业迟迟不解决问题,但还是会有进步。

受欢迎程度

基准时间被用来比较产品,但什么使一个良好的基准和谁应该被信任和他们的创造?这些问题的答案是比表面上看起来更困难,和一些基准以出人意料的方式正在使用中。

每个人都喜欢一个简单的、明确的基准,但这只是可能的选择标准也同样简单。不幸的是,这种情况很少见。基准往往支持一个根深蒂固的在新产品或现有的架构,因为它有更多的机会来优化基准。考虑多久MIPS(每秒数百万指令)作为唯一衡量一个处理器的性能。这一事实意味着没有标准指令是任意的,和一些人选择设备基于单一指标。

今天,定义应用程序的性能,每焦耳每美元,可能是一个更好的指标,但它缺乏简单或普遍性。此外,系统的总处理能力被定义为处理器以外的很多东西。记忆实际上可能是最大的贡献者,特别是当涉及到机器学习系统。编译器工具链也可以产生巨大的影响。

有些人喜欢基准目标组件,而不是系统。“传统上,合成基准用来测量处理器性能提供了一个框架中,每个人都有获得一组通用的代码来测试他们的系统,”罗德瓦特说,应用技术主任手臂的汽车和物联网业务。“虽然这些测试将提供一个指示的处理器能力,他们无法代替现实生活中的工作负载运行。”

属于相同类型的问题机器学习处理器。“客户由基准提供了一些见解,帮助加速解决方案可以给他们最好的性能的神经网络模型在他们的美元和功率预算,”杰夫•泰特说的首席执行官Flex Logix。“考虑到一个8核处理器并不比单核处理器快8倍。如何更快的运行依赖于缓存命中率和解决总线访问竞争和共享内存访问争用,很难模型。所以需要有一系列的标准取决于应用程序的类型客户计划:基准需要计算/运营商类型和图像/内存大小类似的客户计划部署/发展。”

处理器基准很难,因为有很多变量。“合成基准往往专注于核心性能;一些实际运行完全从缓存中,没有强调系统的其余部分,”Arm的瓦特补充道。“很难判断它将运行在现实生活中当它必须处理内存带宽等因素,I / O延迟、功耗,和热的问题。这是特别重要的领域的毫升物联网,该系统处理和不同数据源。利用测试和测量方法,在此基础上考虑是获得可靠的关键指示系统的性能。

其他人也有类似的观察。“今天的soc正在成为软件负载驱动的,”拉维萨勃拉曼尼亚表示,副总裁和总经理西门子EDA。“计算机架构师在隔离工作,所以看一组的事情,你需要查看工作负载,它将基准对权力和性能和驱动SoC架构。”

但它远不止这样。工具链是生态系统的重要组成部分,其中包括编译器。大卫·帕特森的计算机科学教授加州大学伯克利分校最近给嵌入式视觉峰会的主题。他比GCC LLVM,手臂核心RISC-V相比核心时使用相同的编译器。他发现编译器在一个更大的比账户对性能的影响。为嵌入式基准的教训是,代码大小必须显示性能。到目前为止,没有一个嵌入式基准包括代码的大小得到有意义的结果。同样重要的是,我们包括几何标准差,以及几何平均的结果。更成熟的体系结构有更成熟的编译器,这帮助他们。但新架构将迎头赶上。”

罗迪厄克特、高级营销总监Codasip,提供了一个具体的例子。“考虑编译CoreMark基准不同使用常见的GCC编译器开关。图1显示了CoreMark /兆赫和代码大小不同的编译器设置。最后一个例子是一个典型的供应商的性能数据,许多开关用于CoreMark(厘米=“o3 -flto -fno-common -funroll-loops -finline-functions -falign-functions = 16 -falign-jumps = 8 -falign-loops = 8 -finline-limit = 1000 -fno-if-conversion2 -fselective-scheduling -fno-tree-dominator-opts -fno-reg-struct-return -fno-rename-registers param case-values-threshold = 8 -fno-crossjumping -freorder-blocks-and-partition -fno-tree-loop-if-convert -fno-tree-sink -fgcse-sm -fgcse-las -fno-strict-overflow”),”他解释道。“在这个例子中,CoreMark / MHz分数随着开关改变从左到右。然而,有趣的是,最复杂的一组开关增加代码大小40% - O3的而只性能提高了14%。”

图1所示。CoreMark不同的编译器优化的性能。来源:Codasip。

图1所示。CoreMark不同的编译器优化的性能。来源:Codasip。

虽然这可能不是重要的对于某些应用程序,它是嵌入式系统的核心问题。“人们为过时的东西,设计硬件和软件使用错误的基准测试技术,”帕特森说。“这困扰我们中的一些人太多我们决定试着修复它。我们已经创建了一个组织叫Embench,试图对嵌入式计算更好一些。”

使基准保持最新也很重要。“问题是常见的基准ResNet-50可能不是一个好的指标,“Flex Logix的泰特说。“原因是ResNet-50实际上是一个古老的基准,没有人使用的计划。作为一个老的基准,是“本地图像大小”是224×224像素,而客户的图像传感器生成像素的图像,和像素的图像将提供更准确的结果。ResNet-50并不强调一个推理芯片的内存子系统,所以可以给误导迹象基准,强调内存子系统相比,YOLOv3等使用较大的图像和更大的中间激活。”

这也构成了挑战。“所有部分,因为他们是耦合的问题,”Tim Kogel说,首席工程师Synopsys对此。”是没有意义的,美丽的硬件架构和没有一个好的毫升编译器,它利用硬件的所有特性。在谈到算法,其中包括数据的质量和网络本身的架构,它是数据的领域的科学家。当从房子半导体或系统的角度构建一个推理芯片,它是关于映射这些算法和运行它们。工具链和硬件一起负责的结果和质量的指标。另外,不同应用程序的组合指标是不同的。毫升可以应用在许多领域,他们都有不同的性能要求,力量和准确性。很难想出一个适合所有。”

谁创建基准?
起初看起来明显谁应该创建一个基准,并有利益冲突,但它并不总是清楚。“没有办法创造客观、普遍的基准,从用户和从供应商的角度来看,“Juergen Jaeger说,产品管理组主管节奏。“双方都有不同的目标。如果我是一个供应商,我想影响基准的方式我的产品看起来不错,竞争的产品看起来不好。如果我是一名用户,我在寻找一个基准,允许我做出决定哪些产品是最适合我的最终用户的需求。”

似乎表明用户应该放在一起的基准。”“不是那么快,Jaeger这样警告说。“用户希望把一个基准组合在一起,反映了他们的用例和对于他们来说是重要的事情。对于一些用户来说,这都是关于性能。对另一些人来说,这是有多容易使用。一些只关心价格。正确的基准标准是什么,你如何按优先级顺序排列他们?作为一个供应商,我们看到一个更大的各种各样的设计风格,语言覆盖,如何把客户代码,等等。这些可以产生重大影响的结果,和基准不应该偏向特定的设计风格或电路拓扑”。

供应商经常利用基准来帮助自己提高,。“公司经常之间努力平衡内部基准测试和行业基准,”迪伦说Zika病毒,AI /毫升产品经理的手臂。“内部努力集中精力提高处理器的IP为特定客户的需求,虽然行业标杆努力提高处理器IP的广泛需求行业。为了达到这种平衡成本最低的方法,我们需要全行业的支持创建基准数据集,让整个行业的最佳实践。合作可以改善业务性能的有力推动者,但成功的合作很少出现的蓝色,不应认为是理所当然的。”

基准的陷阱
一些标准已经对该行业产生负面影响。后每个人设计和优化的基准,基准变得无用的产品可能是优化的东西是无关紧要的。“这个行业当然会试图优化——每个人都会尝试优化工具或产品为基准,“节奏的Jaeger说。“最后,你将有一个情况一点时间后,当波形稳定下来之后,执行同样的一切。那么你作为一个用户吗?他们看起来都一样。他们都执行相同的。”

图形行业非常了解这个问题。“你不希望看到的是我们看到的在一个特定的图形基准成为占主导地位的,因为每个人都听说过它,你会发现公司设计基准得到最好的分数,”安德鲁·格兰特说高级产品总监想象力的技术。”,扭曲了他们所做的事情。你需要的是一篮子的相关标准,随着时间的推移得到更新的行业能理解并使用,但不扭曲。我们不应该试图向前推动人工智能通过后视镜优化的东西重要的年前。”

一些行业已经做了更好的工作比其他人创建基准。“好基准是非常普遍的在个人电脑行业,“Jaeger说。“你有Geekbench各类系统。在移动领域,有AnTuTu之类的东西。在这些行业工作。这些公开的基准套件也被我们的客户部分确定EDA工具的性能。”

外还有其他的情况下,基准测试是有用的目标受众。在其2020年第四季度时事通讯,一个团队致力于更新EEMBC IoTMark-WiFi基准想出了一个惊人的发现。而标准关注物联网设备的电池寿命,基准暴露特定于供应商的接入点之间的变化,如路由器。一些路由器造成消费终端设备比其他人更多的权力,如果某些配置选项没有设置。

有越来越多的组织正在创建基准套件的挑战,关注各种各样的行业。在最近的博客中,Arm的Zika病毒,谈到MLCommons。“MLCommons是全球工程非营利组织成功雇佣了一个全面的方法来测量性能,创建数据集和最佳实践。基准测试组使开放透明的共识与竞争实体创建一个公平的竞争环境。他们支持的30 +创始成员从商业和研究社区。他们的做法执行可复制性,以确保可靠的结果,是互补的微基准的努力。MLCommons保持基准工作负担得起,所以都可以参与来帮助市场份额的增长和增加创新在一起。”

重要的是,这些基准和他们操作的环境是保持最新。考虑EDA工具的过渡进入云。“数据的云可以显著影响流的效率工具,“Jaeger说。“考虑波形模拟器生成的文件的大小,或创建的数据量分析。我们现在正试图将更多的智能的机器。我们有额外的cpu,我们有时称之为边缘加工的机器,所以我们可以出售的东西。在过去当我们探测数据,我们会将原始数据传输到主机。现在,我们做数据压缩中的机器。这有助于交流,它节省了存储,它还可以帮助主人工作站创建波形,因为现在的波形是由一个小的数据量。环境的变化影响基准,作为回报,影响产品本身。”

结论
需要一个专门的不同人群创建和维护一个基准套件。这个行业是找到这些标准需要变得更加适应特定的细分市场的需求,反映了对于他们来说是重要的事情。通用标准的概念不再是有效的,在有限的情况下除外。系统基准正变得越来越重要,也更难以在客观方面放在一起。



1评论

BillM 说:

啊基准。看看大众如何优化他们的EPA测试(一种基准)无效审查基于他们的柴油汽车…优化系统识别标准的EPA排放测试…

最终用户应该根据他们的需要有自己的标准…

留下一个回复


(注意:这个名字会显示公开)

Baidu