18.luck新利
的意见

实现更大的准确性与变压器实时视觉处理

一种新的神经网络模型打开大门完整的视觉感知。

受欢迎程度

《变形金刚》,首次提出谷歌研究论文在2017年,最初为自然语言处理(NLP)任务设计的。最近,研究人员应用变压器视觉应用程序和得到了有趣的结果。虽然之前,视觉任务已经由卷积神经网络(cnn),变形金刚已经证明了惊人的适应视觉图像分类和目标检测等任务。这些结果赢得了变形金刚的地方旁边cnn视觉任务努力改善机器的对世界的理解为未来的应用上下文推理意识到视频。

2012年,一个叫做AlexNet CNN的获胜者ImageNet大规模视觉识别的挑战(ILSVRC),每年计算机视觉竞争。任务是你的机器学习和分类的1000种不同的图像(基于ImageNet数据集)。AlexNet取得前5名的错误率为15.3%。以前的赢家,基于传统的编程模型,前5错误率在26%左右(见图1),随后几年是由cnn。在2016年和2017年,获胜的cnn实现精度比人类和大多数参与者实现超过95%的准确性,促使ImageNet推出一个新的、更困难的挑战在2018年。cnn的主导地位ILSVRC开车的一系列研究cnn应用到实时视觉应用。虽然准确性继续改善有10倍从2020年的2015年和EfficientNet ResNet提高效率。不仅实时视觉应用程序需要准确性,提高性能(推理/秒或帧每秒(fps)),减少了模型尺寸(提高带宽),和权力和面积效率。

图1:ILSVRC结果突出的显著改善视力AlexNet引入的分类的准确性,卷积神经网络。

分类是一个构建块更复杂,更有用,视觉应用对象检测(找到对象的位置在二维图像),语义分割(分组/标记图像中每个像素)和展示全景的分割(包括识别对象位置和标签/分组每个像素在每一个对象)。

变压器,在谷歌大脑的一份2017年的论文中首次引入,旨在改进递归神经网络(RNNs)和长期短期记忆(LSTM) NLP任务如翻译、问答和会话的人工智能。RNNs和LSTMs用于处理连续数据(即数字化语言和言语)但是他们的架构不容易可平行的,因此通常是带宽限制和困难的训练。变压器的结构有几个优势RNNs LSTMs。与RNNs和LSTMs顺序必须读一串文本,《变形金刚》更可平行的和可以阅读完整的单词序列,使得他们能更好地学习上下文词语在文本字符串之间的关系。

NLP的受欢迎的变压器,在2018年末发布的谷歌,是变形金刚(BERT)双向编码表示。伯特显著提高各种NLP任务和结果是足以被包括在MLCommons MLPerf神经网络推理基准套件。除了精度高,变形金刚更容易训练,使巨大的变形金刚。MTM GPT-3, T5,艾伯特,罗伯塔,T5,开关作为大型变压器的只是一些解决NLP的任务。生成Pre-trained变压器3 (GPT-3), 2020年引入OpenAI,使用深度学习产生类似人类的文本和这所以很难准确确定文本是由人写的。

变形金刚像伯特可以成功地应用于其他具有广阔的结果为嵌入式应用领域使用。人工智能模型,可以在广泛的训练数据和应用范围广泛的应用程序都被称为基础模型。这些领域之一,变压器有惊人的成功是视觉。

变压器应用于视觉

2021年惊人的事情发生了。谷歌大脑团队他们的变压器模型应用于图像分类。有很大的区别一个单词和一个二维图像序列,但谷歌大脑团队把图片切成小片,把这些补丁的像素到一个向量和向量输入变压器。结果是让人吃惊的。没有任何修改模型,变压器战胜当前最先进的cnn在分类精度。虽然准确性并不是唯一指标实时视觉应用程序(权力、成本(地区)和推论/秒)也很重要,这是一个重要的视觉世界的结果。

图2:比较变压器和CNN结构。

很有帮助当比较cnn和变压器理解他们类似的结构。在图2中,变压器的结构由框左边的图像。相比之下,我们画一个类似的结构使用典型的美国有线电视新闻网CNN构造与ResNet - 1×1卷积element-wise加法。我们发现的前馈部分变压器功能相同的1×1卷积CNN。这些都是应用一个线性变换矩阵与矩阵的乘法地图上每一点的特性。

变形金刚和cnn的区别是在每个混合信息如何从邻近的像素。这发生在变压器的多头注意力和卷积网络的3×3卷积。cnn,混合的信息是基于固定每个像素的空间位置,我们看到,如图3所示。3×3卷积,加权求和计算使用邻近像素周围的九个像素中心像素。

图3:说明之间的差异如何CNN的卷积混合和变压器的注意网络功能的其他标记/像素。

变压器的注意机制混合数据不仅基于位置,基于学习的属性。变形金刚-在训练可以学会注意其他像素。注意网络有更强的学习能力和表达更复杂的关系。

引入视觉变形金刚和转移窗户变形金刚

新变压器新兴专门为视觉任务。视觉变形金刚(vit),专业从事图像分类,现在打cnn在精度(尽管为了达到这个精度,维特需要训练有非常大的数据集)。维特也更多的计算,降低了其fps的性能。

变形金刚也被应用于对象检测和语义分割。斯温(转移窗口)变压器为目标检测提供先进的准确性(可可)和语义分割(ADE20K)。而cnn通常应用于静态图像——没有之前或之后的帧,变压器的知识可以应用在视频帧。斯温的变体可以直接应用于视频等使用行为的分类。分别应用变压器的注意力时间和空间给动力学的结果- 400和动力学- 600行动分类基准。

MobileViT(图4),在2022年年初推出苹果公司提供了一个有趣的变压器和旋转,二者的组合。MobileViT结合变压器和CNN的视觉特性来创建一个轻量级模型分类针对移动应用程序。这个变压器和卷积的组合,当相比CNN-only MobileNet,精度高3%相同大小的模型系数(6米)。尽管MobileViT优于MobileNet,但仍低于CNN实现今天的手机,这对变压器支持CNN但没有优化。利用变压器的好处,未来人工智能视觉加速器将需要更好的变压器的支持。

图4:MobileViT:轻量级,通用,为移动设备设计的变压器(https://arxiv.org/abs/2110.02178)

尽管展示了成功的视觉任务的变形金刚,卷积网络是不太可能很快会消失和时间。仍有两种方法之间的权衡——变压器带来更高的精度,但更少的fps性能和需要更多的计算和数据移动。为了避免的弱点,结合变压器和cnn可以灵活的解决方案,显示了巨大的希望。

实现变压器

尽管架构上有相似之处,这将是不切实际的希望加速器专门为cnn将有效地执行《变形金刚》。建筑增强需要考虑处理至少注意机制。

AI加速器的一个例子,是为了有效地处理美国有线电视新闻网和《变形金刚》是弧NPX6转从Synopsys对此IP。NPX6的计算单元(图5)包括一个卷积加速器设计处理矩阵与矩阵的乘法cnn和变压器的关键。张加速器也很重要,因为它被设计来处理所有其他non-convolution张量运算符集架构(斗犬)操作包括变压器操作。

图5:Synopsys对此弧NPX6转IP。

总结

变形金刚的视觉取得了快速的进步和仍然呆在这里。这些引起网络超越CNN-only网络精度。模型,结合视觉与旋转变压器能更有效的推理(如MobileViT)对性能和提高效率。这个新类神经网络模型是打开门来解决未来人工智能任务像完整的视觉感知,需要知识,可能不容易被视觉。变形金刚结合cnn是领先的新一代人工智能的方法。选择架构支持cnn和变形金刚都将为新兴的人工智能应用程序对SoC的成功至关重要。



留下一个回复


(注意:这个名字会显示公开)

Baidu