人工智能变压器使机器视觉目标检测模型

机器视觉的系统级视图将推动技术发展的关键。

受欢迎程度

对象检测的机器视觉应用程序自动驾驶、智能制造、和监视应用程序需要依赖于人工智能建模。多年来,介绍了许多人工智能模型,包括YOLO,意思R-CNN更快,面具R-CNN RetinaNet,和其他人来说,检测图像或视频信号,解释对象,并做出相应的预测。近年来,人工智能变压器模型已成为更好的对象检测解决方案。他们怎么工作,他们有什么优于传统模型?

在机器视觉目标检测
人眼可以看到一个对象并迅速确定它的大小、颜色和深度。此外,大脑可以告诉对象——一个人的运动,一个动物静止,或者一个消防栓,过滤掉背景画面,只关注前景对象。例如,一个司机将专注于一个红绿灯和任何附近的行人,但将忽略的风景如树木和山脉。理想情况下,一个人工智能模型在这种情况下将同样行事。它捕获重要的目标对象和过滤掉背景,以及分类的对象。AI模型必须预测感知对象是基于其培训。

“今天,机器可以“看到”一个图像传感器和镜头的SoC与一个特殊的图像信号处理(ISP)块,帮助清洁机器视觉图像的需求,”亚历山大Zyazin说,汽车行业的高级产品经理手臂。“该ISP的输出块美联储加速器或通用CPU为进一步图像的预处理和后期处理”。

设计要求根据用例相当多样化。“在监测和工厂的场景中,可以使用机器视觉相关用例,按道理来说更好的规划目的或发现的缺陷在工厂生产线,“Zyazin指出。“今天在汽车,机器视觉在高级驾驶员辅助系统(ADAS),它提供了从几个传感器输入单一功能像自动紧急制动或车道保持辅助。”

科技进步为自驾车辆铺平了道路,所有的输入都是由传感器和不需要人工输入。“然而,这将需要许多传感器在汽车,生成大量的数据,必须管理和处理非常低的延迟,”他说。“这是一个高度复杂的系统设计从硬件和软件两个角度。”

变压器结构
近年来,新的变压器模型,包括面向对象检测与变压器(O2DETR研究论文2021),检测变压器(DETR 2020元),和其他人介绍了。变压器的方法有许多像快R-CNN优于传统模型,包括一个简单的设计。(本文将使用2020元的DETR说明变压器模型是如何工作的。DETR训练码也可用于开发人员。)

图1:DETR transformer模型比较其预测与地面真理。当没有匹配,它将产生一个“没有对象。”一根火柴将验证对象。来源:“端到端对象检测与变形金刚”,Facebook的人工智能

图1:DETR transformer模型比较其预测与地面真理。当没有匹配,它将产生一个“没有对象。”一根火柴将验证对象。来源:“端到端对象检测与变形金刚”,Facebook的人工智能

大多数对象检测模型进行初步的预测,然后调整生成最终的预测。DETR使用单通道,端到端对象检测与变压器编码和解码。两个关键DETR组件(1)一组预测损失的部队之间的匹配预测和地面真理,和(2)一个架构,预测一组对象和对象之间的关系模型。地面真理是指地面实际情况如图所示图1的左边的图片。在这种情况下,它是相同的两个独立的鸟类。没有“检查”地面真理,设计糟糕的算法可能最终预测两种不同的鸟类或一只鸟有两个头。

图2:DETR变压器模型。来源:“端到端对象检测与变形金刚”,Facebook的人工智能

图2:DETR变压器模型。来源:“端到端对象检测与变形金刚”,Facebook的人工智能

人类大脑识别一个物体从图像处理信息基于先验知识。机器视觉学习和一个图像转换成数字数据。如图2所示,卷积神经网络(cnn)是通常用于处理数据。DETR使用传统的CNN和骨干得到数据。然后通过一个变压器发送数据编码和解码的过程。最后,数据将去一个共享的前馈网络(FFN)预测对象检测或“没有对象。”

而不是按顺序处理这些锚箱,DETR需要端到端的方法,并行处理数据。简单地说,DETR看着整个画面,开始做出预测。然后比较了小片与地面真理。如果DETR“看到”一个鸟头,在地上发现同样的真理,然后它知道它有一个匹配,如黄色框的右边所示图1。否则,将会产生“不计较”绿色框所示图1的右边。

此外,DETR可以处理重叠的对象,而不“锚箱”或“non-maximum镇压。”

锚箱用于传统的目标检测模型。感兴趣的对象为零,该算法生成的盒子。之后,他们将被用作参考点的大小和位置的预测。

如果有多个重叠的对象?假设两只鸟站在相互非常接近一个第二个鸟鸟阻塞的一部分。这一过程被称为non-maximum抑制用于选择以最大的信心和预测两个单独的鸟类而抑制所有其他预测。

传统的人工智能模型使用锚箱和non-maximum抑制过程的信息。绕过这些步骤使DETR比传统模型更有效。

人工智能无处不在,但针对不同的应用程序进行了优化
使用机器视觉的目标检测需要人工智能算法模型/人工智能芯片上运行,fpga或模块。在一起,这些都是通常被称为一个“人工智能引擎。“第一次训练后,人工智能模型可以部署到运行在适当的硬件做出预测和/或决定,通常被称为“推理。“确保硬件开发可以跟上新的人工智能模型的创新是非常重要的。

“如果所有我们需要做的是检测对象,non-transformer模型如YOLO可能足够的意思,”解释成王,首席技术官和软件和架构的高级副总裁Flex Logix。“但我们进入一个空间迅速改变。变压器模型,三年前开始分类和检测的目的,现在是一个生成AI和生成人工智能视觉要求。所有这些操作是我们传统的东西没有占在前面的人工智能硬件或人工智能芯片。”

此外,是远远不够的人工智能硬件运行的基准,因为基准是五岁和软件模型改变每隔几个月。为此,王说人工智能硬件等eFPGA是必要的。是software-adaptable跟上最新的变压器模型,这使得它灵活。

“换句话说,今天有很大的性能是不够的,”他说。“你需要不会过时的设计”。

在很多领域,使用各种类型的人工智能正在崛起。

看使用人工智能在端点和边缘计算,Sailesh Chittipeddi,执行副总裁,总经理嵌入式处理,数字电源和信号链解决方案组瑞萨指出在最近的一次小组讨论在半导体西方,“75%的数据生成的2025将来自网络的边缘和端点。这不是在云中生成。所以尽管你听到的炒作,实际上大多数的活动发生在人工智能边缘的端点。另一个有趣的统计提出,90%的数据,从所有这些设备会进入企业丢弃。有黑暗的数据。第一点,你在哪里可以截获的数据产生使它有用吗?这是边缘的端点。真的很有能力预测会发生什么在网络的端点的边缘,和大量的区别。”

在考虑计算,它是典型的微控制器,微处理器,cpu、gpu,尽管最新的流行语都是关于gpu和发生了什么GPT3 GPT4,除此之外是什么。

“但请记住,这些都是大型的语言模型,“Chittipeddi说。“大多数数据集不需要这样巨大的处理能力。需要少得多的数据在端点的边缘,通常最终发生是有需要迅速处理数据非常低的延迟。延迟,安全,能够在本地处理数据的能力,并且能够使其可行的——这是第一点的边缘。”

投入的角度来看,处理分发远远超出其传统市场,和由人工智能生成的数据量,需要更快的结果——是这种转变的关键。

“市场一直非常关注传统的应用程序,如网络、电脑、和ERP,和这些市场将继续增长,当然,”亚历克斯说,flash营销的副总裁华邦电子。”但是人们正在寻找新的应用程序,这些新的应用程序真的会引导我们到下一个时代。这就是为什么NVIDIA与人工智能产生如此多的业务,以及为什么你看到AMD的gpu。这些新应用程序需要更多的组件,需要更多的密度为我所做的一切。人工智能就像映射信息在你的大脑。但是如果你开车,你看到人们走在街上,你必须尝试忽略他们绕过他们。这是神经学,它消耗大量的内存。而这仅仅是个开始。”

图3:DETR部署与InferX编译器。DETR分解成100层。InferX编译器会自动最大化快速存储器访问和最小化缓慢DRAM访问并生成配置为运行每个层位。来源:Flex Logix

图3:DETR部署与InferX编译器。DETR分解成100层。InferX编译器会自动最大化快速存储器访问和最小化缓慢DRAM访问并生成配置为运行每个层位。来源:Flex Logix

机器视觉是另一个关键技术,今天人工智能和机器视觉在几个方面进行交互。“首先,机器视觉输出喂一个AI引擎执行功能,如人计数、对象识别、等,作出决定,“胳膊的Zyazin说。“第二,人工智能是用来提供更好的质量与基于AI的去噪图像,然后协助决策。一个例子可能是一个汽车应用,结合人工智能和机器视觉可以识别限速标志前,相应地调整速度。”

但是自主驾驶的情况,例如,如果AI模型收到有缺陷的相互矛盾的视觉信号传感器?最好的规则是稳妥安全可靠。

副总裁托马斯·安德森,人工智能和机器学习Synopsys对此说,在这种情况下,这取决于实际的应用程序及其临界系统故障。”因此,多个系统需要使用双重和三重检查信息。如果发生冲突,这个决定是非常困难的。作为一个例子,无人驾驶汽车,你可能总是宁可谨慎和自动制动,如果说,雷达传感器检测到一个对象,然而,相机不。同时,这种所谓的“幽灵制动”会导致事故,。一个人应该永远记住,永远不会有一个完美的解决方案,以及人类犯许多错误,”。

虽然AI模型是提高总体而言,在目标检测和预测准确性的重要性AI永远不应该被忽视。

“就像任何应用程序,可接受的假阳性率取决于应用程序,”博卡阿莫勒说,产品管理总监、营销和业务发展Tensilica愿景和AI需求方节奏。对于一个消费者应用程序,正确认识一个人作为一个沙发不是至关重要的。然而,一个错误分类的一个行人汽车应用程序或不正确诊断疾病可以是至关重要的,甚至是致命的。这更多的是一个人工智能/分类/检测问题。AI进步已成为自动识别复杂的模式的更准确的成像和提供量化的数据,而不是定性评估影像学特征。”

而博卡看到AI改善很多东西,他承认它并添加更多的计算需求的平台,比如处理大量的隆起和神经网络层。“基于人工智能模型工作,需要大量的合成数据训练和验证模型。更进一步,修改消费知觉堆栈事件相机数据可以提供过度敏感,最最少的运动相比,传统的滚动/全球shutter-based传感器。这可能提高系统精度、适用范围是广泛的。对于任何人工智能模型一样,这种方法需要大量的数据来火车或验证之前准备黄金时段。”

安全问题
好一个好的结果的数据是至关重要的,维护,数据和系统处理和存储它至关重要,。

机器视觉系统需要担保,Synopsys对此战略营销经理罗恩·洛曼说。“安全是必要的在人工智能和人工智能。硬件威胁分析使用基于向量坏演员和他们的威胁,但AI可以把攻击向量和设备数量的攻击——在任何需要安全。多年来,安全的软件,因为它是便宜。但纯软件安全显然是不够的,所以我们看到的吸收所需的安全标准和实现的硬件IP的信任根。很好的例子是作为PCIe和蓝牙。在蓝牙的情况下,有自愿标准加密数据,但没人这么做是因为成本。慢慢地,这个行业正在改善这种情况。在作为PCIe的情况下,采用一个新的标准中引入安全通信接口。在很短的时间,这使得大量的企业采取作为PCIe IDE,我们看到这个快速改变整个接口IP要求前进。”

产品营销副总裁安迪·南丁格尔Arteris表示同意。“安全是至关重要的任何技术应用,机器视觉也不例外。机器视觉系统通常涉及敏感数据和过程,如监控录像、医学成像、或自主车辆控制,使安全特别重要。”

夜莺指着四个地区的安全是至关重要的机器视觉应用程序:

  • 数据隐私。机器视觉系统通常处理大量的数据,包括敏感的个人或商业信息。要保护数据免受未经授权的访问或披露。这可以通过加密、访问控制和数据匿名化。
  • 系统的完整性。机器视觉系统可以容易受到攻击,操纵或干扰他们的操作。要保护系统组件和数据篡改或黑客攻击。这可以通过安全的引导,实现系统硬化和入侵检测。
  • 身份验证。机器视觉系统通常依赖于传感器、相机和其他设备受到欺骗或模拟攻击。确保这些设备验证是至关重要的,该系统可以检测和防止未经授权的访问。这可以通过生物认证,设备证书,和网络分割。
  • 遵从性。机器视觉系统可能受到监管安全和隐私相关的或特定于行业的需求。确保系统设计和操作符合这些要求是至关重要的。这可能涉及技术,如风险评估、审计跟踪和数据保留策略。

“安全应该解决整个SoC设计使用行业标准(如平台安全体系结构(PSA),并通过终端设备的部署和操作,”夜莺说。“通过实施适当的安全措施,机器视觉系统可以有效地同时保护数据,方法,和个人参与进来。”

展望未来
作为人工智能模型继续发展,他们将变得更有效率,作为新兴的变压器模型。开发人员将需要平衡在未来设计中软件和硬件。许多因素,包括灵活的硬件、管理冲突、准确性和安全性需要包含在设计方面的考虑。

“未来的架构会有机器视觉的系统级视图,“洛曼说Synopsys对此。“某些权衡将需要考虑,例如,系统成本,记忆分类架构中的可用性,或内存带宽内和芯片,多少处理器,什么类型的处理器为不同的阶段,一些宽度AI在每个阶段,和一大堆其他的参数。这些只能通过复杂的工具和优化配置和优化IP、记忆、接口、安全或处理器IP。”

此外,机器视觉将继续扩展到新的应用程序作为人工智能和生成模型可用。

“有几个主要方向为机器视觉,包括云计算规模深度学习解决方案,架构改善毫升管道自动化毫升、变压器结构,优化计算机视觉(机器视觉的超集)和移动设备将计算机视觉技术的边缘,“Synopsys对此”安德森说。

——附加完安Mutschler和埃德·斯珀林。



留下一个回复


(注意:这个名字会显示公开)

Baidu