中文 英语
18lickc新利
的意见

动态硬件如何有效地解决了神经网络复杂性问题

随着人工智能模型继续在复杂性和规模扩张,微小的低效率得到大的多了。

受欢迎程度

鉴于神经网络模型的计算要求高,高效的执行是至关重要的。当执行每秒数万亿次甚至最小的低效率增加到大的芯片和系统级别的效率低下。因为人工智能模型继续扩大在规模和复杂性要求越来越像人类的智能(人工),是至关重要的,以确保快速执行。

增加困难,多层推测模型如YOLO,意思ResNet,《盗梦空间》,伯特和注意力模型通常需要不同类型的处理(称为运营商)的多层网络。每一层在机器学习(ML)模型上执行一个操作的一组输入数据。这个操作可能会重复数百次具有独特的过滤器为每个操作如表1所示。表1显示了卷积和残留层DarkNet-53 Yolov3使用的骨干。骨干从输入图像中提取特征用于目标检测的工作量。DarkNet使得大量使用卷积,表中可以看到。

每一层的模型可以被认为是一个子程序,包含数十亿计算在数以百计的过滤器。然后会有几十到几百层模型中执行不同大小和滤波器的卷积计算,一个接一个级联。其他技术,如MaxPool或AvgPool减少一层的像素(或激活),也可以应用到几层,这些是机器学习模型的准确性的关键。任何毫升推理解决方案的挑战是确保所有这些不同的层子程序尽可能高效地运行在硬件加速器。

除了处理张量(多维数组的数字),输入数据的重要数据移动,激活,重量、结果。在所有需要这个数据移动当前神经网络模型。数据移动,如果不妥善处理,也可以驱动处理效率低下。无论如何高效的处理元素,如果张量处理器需要花费数以百计的周期从内存,等待数据到达,该系统将不可避免地失去效率。


表1:用于Yolov3 DarkNet-53骨干

动态张量处理驱动模型执行的效率

Flex Logix InferX X1 AI推理处理器提供了一个独特的方法来处理计算强烈但不规则推断法模型的复杂性。我们称这种方法动态张量处理。在动态张量处理,处理单元的结构张量自己可以修改优化tpu结构特定需求的任何特定的层在机器学习推理模型。他们可以重新配置几乎没有开销与下一层的需求模型的执行过程。

InferX允许的动态张量的处理方法要转换的处理元素在几微秒(通常与数据传输操作重叠)的最优结构网络的下一层而激活存储在然后从本地读取内存结构。这也减少了外部存储器的带宽和容量需求的高性能系统。

作为一个例子,使用动态张量处理器架构,数以百计的卷积中过滤器层张量处理器可以并行处理,产生巨大的性能和效率收益。

其他方法处理人工智能推理可能包括十倍的张量处理元素融入设计推高了成本和功耗所需的硅处理相应的生长。这些巨大的张量数组也通过不断提高执行延迟运动记忆和张量之间的数据处理器。而张量元素的复制会导致惊人的数字,现实是利用张量的单位是很穷,收益率低至个位数利用率百分比,低延迟的批量= 1的工作负载。

在不同工作负载,动态张量处理器方法提供了主要性能和执行效率衡量推断美元/瓦特和推论。

进化模型的灵活性要求

机器学习行业迅速发展的新的创新方法和应用。看看毫升论文发表在arXiv (https://arxiv.org/list/stat.ML/recent每个月)显示了数以千计的新论文提交!这些文件涵盖新模型设计,改进现有的设计以及现有模型的新用例。这是一个令人激动的时刻。也是一个危险的时候芯片开发商承诺毫升加速器架构对于今天的重要模型可能会没有前进道路的设计如果找到新的更好的方法要求不同的硬件配置和优化。获胜的解决方案将提供不仅仅是软件,但也硬件的灵活性最好的方法来确保一个给定边缘推论技术将相关性和长寿已经很多年了。

相同的动态张量处理器技术,提供了高效的执行当代毫升模型还提供了一个路径支持新运营商和ML的技术模型,还没有被开发出来。围绕基本multiply-accumulate操作时,InferX技术可以同时支持浮点数和不同大小的整数数据类型。它还可以重新配置连接路径在张量元素来支持新的数据流处理。这种方法会导致高信心的能力InferX支持新技术,有待发明,推理加速架构愿景和其他工作负载。

总之,如果你正在寻找最好的边缘推理应用程序的性能和效率,也想要使用一种技术,将不会过时的技术,可以适应新的技术提供更好的准确性和速度,那么你应该考虑动态张量技术的使用。



留下一个回复


(注意:这个名字会显示公开)

Baidu