中文 英语
18lickc新利
的意见

用自适应计算解决现实世界的人工智能产品化挑战

主要差距阻碍了AI算法概念验证成为真正的硬件部署。

受欢迎程度

人工智能(AI)领域发展迅速,创新的步伐只会加快。虽然软件行业已经成功地在生产中部署了人工智能,但硬件行业——包括汽车、工业和智能零售——在人工智能产品化方面仍处于起步阶段。主要的差距仍然存在,阻碍AI算法概念验证(PoC)成为真正的硬件部署。这些缺陷很大程度上归结于小数据问题、“不完美”输入以及不断变化的“最先进”模型。软件开发人员和人工智能科学家如何克服这些挑战?答案在于适应性强的硬件。

小的数据

谷歌和Facebook等互联网巨头每天都会收集和分析大量数据。另一方面,在硬件行业,大数据的可用性要有限得多,导致AI模型不太成熟。自然,有一个主要的推动力是收集更多的数据,并完成“在线”,在相同的部署硬件上执行训练和推理,以不断提高准确性。

为了解决这个问题,自适应计算——例如fpga和在边缘被证明是可适应的soc——可以运行推理和训练,以不断更新自己到新捕获的数据。传统的人工智能培训需要云或大型预置数据中心,需要数天或数周才能完成。另一方面,真正的数据主要是在边缘生成的。在同一边缘设备上运行AI推理和训练不仅可以提高总拥有成本(TCO),还可以减少延迟和安全漂白。

“编码器”输入

虽然发布AI模型PoC变得越来越容易,以x射线图像为例,展示COVID-19检测的更高准确性,但这些PoC几乎总是基于清理良好的输入图片。在现实生活中,来自医疗设备、机器人和移动汽车的相机和传感器输入会有随机的扭曲,如黑暗图像和各种角度的物体。这些输入首先需要经过复杂的预处理来清理和重新格式化,然后才能输入AI模型。后处理对于理解AI模型输出并计算正确的决策非常重要。

事实上,有些芯片可能非常擅长AI推理加速,但这些几乎总是只加速整个应用程序的一部分。以智能零售为例,预处理包括多流视频解码,然后使用传统的计算机视觉算法来调整视频的大小、重塑和格式转换。后处理还包括对象跟踪和数据库查找。终端客户不太关心AI推理的运行速度,而是他们是否能够满足整个应用程序管道的视频流性能和/或实时响应能力。fpga和自适应soc在使用领域特定架构(dsa)加速这些前后处理算法方面有良好的记录。此外,添加AI推理DSA将使整个系统得到优化,以满足端到端的产品需求。


图1:DSA需要加速AI和非AI。

不断改变“最先进的”模型

人工智能研究社区可以说是最活跃的,世界各地的顶级研究人员每天都在发明新的人工智能模型。这些模型提高了准确性,减少了计算需求,并解决了新型人工智能应用。这种快速的创新继续给现有的半导体硬件设备带来压力,需要更新的架构来有效地支持现代算法。MLPerf等标准基准测试证明,在运行真实的AI工作负载时,最先进的cpu、gpu和AI ASIC芯片的性能远低于供应商所宣传的30%。这不断推动对新的DSA的需求,以跟上创新的步伐。

最近有几个趋势正在推动对新的dsa的需求。切除卷积是一个新兴的层,需要大的内存带宽和专门的内部内存缓存来提高效率。典型的AI芯片和gpu具有固定的L1/L2/L3缓存架构和有限的内部内存带宽,导致效率非常低。

研究人员不断发明新的东西自定义图层今天的芯片根本没有本机支持。因此,它们需要在没有加速的情况下在主机cpu上运行,这通常会成为性能瓶颈。

稀疏神经网络这是另一个很有前途的优化,通过修剪网络边缘,去除卷积中的细粒度矩阵值等,网络被大量修剪,有时可以减少99%。然而,为了在硬件上有效地运行,你需要专门的稀疏架构,加上大多数芯片根本不具备的编码器和解码器。

二元/三元都是极值优化,使得所有的数学运算都变成了位操作。大多数AI芯片和gpu只有8位、16位或浮点计算单元,所以你不会通过极低的精度获得任何性能或电源效率。fpga和可适应的soc是完美的,因为开发人员可以开发完美的DSA,并根据产品的工作负载重新编程现有设备。作为一个证明,最新的MLPerf包括Xilinx与Mipsology合作提交的一份报告,该报告使用ResNet-50标准基准测试实现了100%的硬件数据表性能。


图2:MLPerf基准。

没有硬件专业知识?没有问题

从历史上看,fpga和可适应soc的最大挑战是需要硬件专业知识来实现和部署dsa。好消息是,现在有一些工具(如Vitis统一软件平台)支持c++、Python和流行的人工智能框架(如TensorFlow和Pytorch),缩小了软件和人工智能开发人员的差距。

除了更多的软件抽象工具开发之外,开源库(如Vitis硬件加速库)在开发人员社区中显著地促进了采用。在最近的设计大赛中,Xilinx吸引了1000多名开发人员,并发布了许多创新项目,从手势控制无人机到使用二值化神经网络的强化学习。重要的是,大多数提交的项目都是由之前没有fpga经验的软件和AI开发人员提交的。这证明了FPGA行业正在采取正确的步骤,使软件和AI开发人员能够解决现实世界的AI产品化挑战。


图3:物的自适应智能。

直到最近,对于普通软件开发人员和人工智能科学家来说,释放硬件适应性的力量是无法实现的。以前需要特定的硬件专业知识,但由于新的开源工具,软件开发人员现在可以使用可适应的硬件。有了这种新的编程便利性,fpga和可适应的soc将继续为成千上万的软件开发人员和人工智能科学家所使用,使这些设备成为下一代应用程序的首选硬件解决方案。事实上,dsa将代表人工智能推理的未来,软件开发人员和人工智能科学家将利用硬件适应性来实现下一代应用程序。



留下回复


(注:此名称将公开显示)

Baidu