中文 英语

机器学习将更多工作转移到fpga, soc

随着数据中心使用更多的fpga进行机器学习,SoC带宽和集成将得到扩展。

受欢迎程度

一波机器学习优化芯片预计将在未来几个月开始发货,但数据中心还需要时间来决定这些新的加速器是否值得采用,以及它们是否真的像声称的那样在性能上有巨大提升。

有许多报道称,为机器学习定制的硅芯片将提供100倍于当前选项的性能,但在苛刻的商业用途下,它们在现实测试中的表现如何还有待证明,而数据中心是新技术最保守的采用者之一。尽管如此,包括Graphcore、哈瓦那、ThinCI和Wave Computing在内的知名创业公司表示,他们已经向客户提供了早期的芯片进行测试。目前还没有人开始生产或展示这些芯片。

这些新设备有两个主要市场。机器学习中使用的神经网络将数据分为两个主要阶段:训练和推理,每个阶段使用不同的芯片。虽然神经网络本身通常驻留在训练阶段的数据中心中,但它可能有一个用于推理阶段的边缘组件。现在的问题是哪种类型的芯片和哪种配置将产生最快、最节能的深度学习。

fpga和soc似乎越来越受欢迎。Tirias Research总裁Jim McGregor表示,这些数据中心需要可编程硅的灵活性和高I/O能力,这有助于fpga满足训练和推理的高数据量、低处理能力的要求。

与几年前相比,FPGA设置现在用于培训的频率较低,但用于其他方面的频率要高得多,并且在明年可能会继续增长。即使所有50家左右致力于神经网络优化处理器各种迭代的初创公司今天都交付了成品,它也需要9到18个月才能出现在任何一个像样的数据中心的生产流程中。

麦格雷戈说:“有数据中心的人不会把现成的东西买下来放在生产机器上。”“你必须确保它满足可靠性和性能要求,然后大规模部署。”

新的体系结构和微体系结构仍然有机会。ML工作负载正在迅速扩展。根据5月份的一份报告,用于最大AI/ML训练运行的计算能力每3.5个月就会翻一番,自2012年以来,计算能力的总使用量增加了30万倍报告从OpenAI。相比之下,摩尔定律预测可用资源每18个月就会增加一倍,最终总容量仅增加12倍。

开放。人工智能noted that systems used for the largest training runs (some of which took days or weeks to complete) cost in the low-single-digit-millions of dollars to buy, but it predicts that most of the money spent on machine-learning hardware will go to inferencing.

这是一个巨大的,全新的机会。5月30日,Tractica的一份报告预测,深度学习芯片组的市场将从2017年的16亿美元增长到2025年的663亿美元,其中包括cpu、gpu、fpga、asic、SoC加速器和其他芯片组。谷歌在其TPU上就是这么做的,业内人士表示,亚马逊和Facebook正在走同样的道路。

McGregor表示,市场正在向SoC而非独立组件转变,SoC、ASIC和FPGA供应商的战略和包装也在不断多样化。

Xilinx、Altera(现在是英特尔)和其他公司正试图通过在FPGA阵列中添加处理器和其他组件来扩展FPGA。其他芯片,如Flex Logix、Achronix和Menta,则将FPGA资源嵌入更小的片段,靠近SoC的特定功能区域,并依赖高带宽互连来保持数据移动和高性能。

McGregor说:“你可以在任何你想要可编程I/O的地方使用fpga,人们也确实用它们来进行推理和训练,但你会看到它们更多地处理大数据任务,而不是训练,后者有大量的矩阵乘法要求,更适合GPU。”

然而,GPU并不是濒危物种。Moor Insights & Strategy分析师Karl Freund在一份报告中表示,英伟达预计在ML芯片上市后仍将继续存在,但它正在采取措施保持主导地位,并扩展到推理领域博客

NVIDIA在本月早些时候发布了NVIDIA TensorRT超尺度推理平台其中包括特斯拉T4 GPU,可提供65TFLOPS用于训练,260万亿4位整数运算每秒(TOPS)用于推断——足以以每秒30帧的速度处理60个同步视频流。它包括320个“图灵Tensorcores”,用于推理所需的整数计算。

新架构
Graphcore是最著名的创业公司之一,它正在开发一种236亿晶体管的“智能处理单元”(IPU),具有300mb的片上存储器,1216个核,每个核能达到11gflop,内部内存带宽为30TB/s。其中两个是在一个PCIe卡中,每个都被设计成在一个芯片上保存整个神经网络模型。

GraphCore即将推出的新产品基于一种图形架构,该架构依靠其软件将数据转换为顶点,其中数字输入、应用于顶点的函数(加、减、乘、除)和结果分别定义,可以并行处理。其他几家ML初创公司也采用了类似的方法。

Wave Computing公司没有透露它何时上市,但透露了更多关于它的信息体系结构在上周的AI HW大会上。该公司计划销售系统,而不是芯片或电路板,使用16nm处理器和15gbyte /秒的端口,HMC内存和互连,这一选择旨在通过处理器集群快速推送图形,而不必通过PCIe总线的瓶颈通过处理器发送数据。该公司正在探索转向HBM内存以获得更快的吞吐量。

机器学习的未来将是异质的,而支持机器学习的芯片将来自微软——它是fpga、gpu和几乎所有用于深度学习的东西的大买家。

“虽然gpgpu和面向批处理的npu等面向吞吐量的架构在离线培训和服务中很受欢迎,但它们对于DNN模型的在线低延迟服务并不有效。2018年5月这篇论文描述了微软在深度神经网络(DNN)中最新迭代的高效fpga“脑波计划”。

微软率先在大规模数据中心中广泛使用fpga作为DNN推理的神经网络推断加速器。微软公司的杰出发明家、企业解决方案技术副总裁史蒂文·吴(Steven Woo)说,他们不是把它们作为简单的协处理器,而是“一种更灵活、一流的计算引擎”Rambus

根据微软的说法,Project Brainwave使用英特尔Stratix 10 fpga池,可以在共享网络上被任何CPU软件调用,在第一批处理时可以提供39.5 TFLOPS的有效性能。框架不可知的系统导出深度神经网络模型,将其转换为微服务,为必应搜索和其他Azure服务提供“实时”推理。

“灵动”是德勤全球所称的“戏剧性的转变2016年,cpu和gpu的出货量不足20万台。德勤预测,2018年cpu和gpu将继续占据主导地位,销量将超过50万,但随着ML项目数量在2017年至2018年间翻一番,2018年至2020年间再次翻一番,整个市场将包括20万个fpga和10万个asic。

根据德勤的数据,fpga和asic的功耗远低于gpu、cpu,甚至谷歌的TPU在重载下的功耗为75瓦/小时。它们还可以在客户选择的特定功能上提供性能提升,这可以随着编程的改变而改变。

“如果人们有自己的选择,他们会在硬件层用asic来构建东西,但fpga比gpu有更好的功率/性能配置,而且它们真的很擅长定点或可变精度架构,”英特尔营销副总裁史蒂夫·门索尔(Steve Mensor)说Achronix

然而,它们的吸引力在于它们没有给数据中心带来的东西——过高的功耗、热量、成本和延迟。

“有很多很多内存子系统,你必须考虑低功耗和物联网应用,以及网格和环,”公司董事长兼首席执行官Charlie Janac说ArterisIP.“所以你可以把所有这些都放在一个芯片上,这是你决策物联网芯片所需要的,或者你可以添加具有高吞吐量的HBM子系统。但是工作负载是非常具体的,每个芯片都有多个工作负载。所以数据输入是巨大的,特别是当你在处理雷达和激光雷达这样的东西时,如果没有先进的互连,这些东西就无法存在。”

由于应用程序特异性的需要,连接到互连的处理器或加速器的类型可能会有很大的不同。

该公司营销和业务发展副总裁阿努什•莫汉达斯表示:“我们迫切需要大规模的效率。NetSpeed系统.“我们可以在机架上安装asic、fpga和soc,你的预算越多,我们就能在机架上投入越多。但最终你必须高效;你必须能够进行可配置或可编程的多任务处理。如果你能把多播带到矢量处理工作负载中,这占了训练阶段的大部分,你能做的事情就会大大扩展。”

FPGA不是特别容易编程,也不像乐高积木那样容易插入设计中,尽管它们正在朝着这个方向快速发展,计算核心、DSP核心和其他IP块在soc中比在FPGA结构中更常见。

但是,从一个类似soc的嵌入式FPGA芯片到一个成熟的芯片系统,以及一个为机器学习应用优化的数据背板,并不像听起来那么容易。

Mohandass说:“性能环境如此极端,要求如此不同,以至于AI领域的soc与传统架构完全不同。”“现在有了更多的点对点交流。你正在处理这些有数千个矩阵行的矢量处理工作负载,而且你有所有这些可用的核心,但我们必须能够扩展到数十万个核心,而不仅仅是几千个。”

性能至关重要。设计的便利性、集成、可靠性和互操作性也是如此——SoC供应商关注底层框架和设计/开发环境的特征,而不仅仅是适应机器学习项目特定要求的芯片组。

NetSpeed推出了专为深度学习和其他人工智能应用设计的SoC集成平台的更新版本,一项使NetSpeed IP集成更容易的服务,以及一个使用机器学习引擎推荐IP块以完成设计的设计平台。该公司表示,其目标是在整个芯片上提供带宽,而不是传统设计中典型的集中处理和内存。

莫罕达斯说:“从asic到神经形态芯片再到量子计算,一切都在发展中,但即使我们不必改变当前架构的整个基础(以适应新处理器),这些芯片的大批量生产也还很遥远。”但是我们都在解决同样的问题。当他们从上到下的工作时,我们也在从下到上的工作。”

cpu仍然是数据中心中最常用的数据处理元素,其次是FPGA,然后是gpuFlex Logix他预计,加速器的构成将发生变化。但他指出,需求不太可能很快下降,因为数据中心试图跟上他们自己的ML应用程序的需求。

Tate说:“现在人们花了一大笔钱来开发比gpu和fpga做得更好的东西。“总的趋势似乎是为神经网络提供更专业的硬件,所以这可能是我们前进的方向。例如,微软表示,他们使用所有的cpu、图形处理器、tpu和fpga,根据它们可以为特定的工作负载提供最好的回报。”

<强>相关的故事
数据中心实力即将崛起
向云模式的转变控制了电力消耗,但这种好处可能已经结束了。
数据中心的超伸缩性
企业不再是IT世界的中心。一场极端的经济转变让芯片制造商把注意力集中在超大规模云上。
主流芯片架构的巨大变化
随着设备规模效益的下降,支持人工智能的系统正在被设计成在本地处理更多数据。



留下回复


(注:此名称将公开显示)

Baidu