18lickc新利
的意见

新视觉技术对真实世界的应用程序

嵌入式视觉处理器发展将最新的学术研究。

受欢迎程度

计算机视觉——机器的能力“推断”或从二维图像中提取有用的信息或者一个未压缩的视频流的图像——有能力改变我们的生活。可以启用自动驾驶汽车,赋予机器人或无人机发送包裹到你家门口,看到他们的方法,可以把你的脸变成一个支付方式(图1)。为了实现这些进步,嵌入式视觉处理器发展迅速将最新的学术研究成果转化为高效、经济上可行的嵌入式视觉处理器。


图1:新的计算机视觉技术,与人工智能相结合,提供面部识别对于门访问,支付,和其他应用程序。

计算机视觉技术经历了巨大的飞跃后引入新的深度学习技术在2012年AlexNet -早期卷积神经网络赢得了Imagenet大规模视觉识别的挑战(ILSVRC)(图2)。竞争优先的准确性,并在随后几年,每个新的冠军前推1和五大分类结果(图的准确性的最佳猜测图像),直到他们超越人类能力的具体任务识别/分类1000项。ImageNet赢家完成这些结果,把更多的计算复杂度问题,使用32位浮点计算上执行银行的gpu。帮助达到提高检测精度,提高了性能。


图2:ImageNet大规模视觉识别结果表明,深度学习挑战是超越人类的水平精度。

卷积神经网络(cnn)已经成为现代计算机视觉的目标检测的标准。粗略的说,CNN算法训练对象,比如行人分解成的模式曲线,角度,和其他组件,将这些数据存储在它的权重系数,然后搜索图像的模式识别对象以惊人的准确性。

作为工程师希望应用这些ImageNet CNN图——VGG16 GoogleNet, ResNet,等。实用的嵌入式视觉应用,很明显,ImageNet提交没有受到嵌入约束等权力有限预算,内存带宽限制,最小延迟时间延迟和小硅区域目标。此外,ImageNet赢家并非由实时测量要求会议目标帧率。计算机视觉从学术运动过渡到实际应用,所有这些问题都需要解决。嵌入式工程师需要找到一种方法来满足性能和精度高的要求计算机视觉在处理嵌入式的局限性。嵌入式视觉处理器的设计是为了提供面积最小的最佳计算机视觉表现和权力处罚。

一阶计算机视觉测量性能tera-operations每秒(上衣)。拉(1012)是一个大数目由像素的数量需要处理,深度学习算法的复杂性像cnn。操作每秒措施多少可以在一个处理器时钟周期内完成。顶部的一个简单的计算一个给定的视觉处理器的数量是2 x multiply-accumulators (mac) x (MHz)的处理器频率。使用乘法由两个因为MAC被认为是在一个周期两个操作——乘法和积累。使用MAC电脑因为有成千上万的MAC操作任何CNN算法的核心。

嵌入式视觉性能要求不同的应用程序
不同的计算机视觉应用程序需要不同程度的表现,但在整合一个总体趋势,性能需求正在增加。人脸识别在中端智能手机可能需要小于1的性能。领域中的应用,如增强现实、监视和汽车后方摄像头一般需要1到10之间的性能。在高端汽车前摄像头用于高安全性的应用程序时,microservers,和数据中心,需要10至100顶性能,或者更多。嵌入式视觉处理器已经增加数量的mac抬高他们的上衣表现为所有这些视觉应用程序提供一种可伸缩的解决方案。

当Synopsys对此介绍其DesignWare弧EV5x视觉处理器IP 2015年,它提供64 MAC /周期在800 mhz约0.1。发布的EV6x一年后,包括880 MAC加速器和提供约1.3在800 mhz。EV6x改进,2017年3520 mac 1.2 ghz 8.5神经网络的性能。

2019年,Synopsys对此介绍了EV7x嵌入式视觉处理器IP深层神经网络(款)加速器(图3)。款加速器14080 mac和可以执行所有CNN图表,包括最新的、最复杂的图形和自定义图表,并提供新的支持批处理长期短期记忆(LSTMs)的应用程序需要基于时间的结果。除了款加速器,EV7x包括视觉引擎低功耗,高性能的愿景,同时定位和地图(大满贯)和DSP算法。结合的性能EV7x款和EV7x视觉引擎,EV7x可以扩大到35性能。这是关于增加35000% EV5x四年来表现。


图3:DesignWare弧EV7x嵌入式视觉处理器IP包含一个视觉引擎与四位向量处理单元(VPUs)高性能款加速器,和完整的软件工具集。

你需要更多的比mac:内存和带宽方面的考虑
mac电脑加入到加速器提高神经网络的发动机的性能以满足一系列真实的计算机视觉应用。然而,这只是故事的第一部分。事实上,增加mac加速器是扩展神经网络图的最简单的方面的性能。更具挑战性的是:我们如何确保这些电脑都忙吗?理想的系统计算绑定(缺乏性能)和I / O(缺乏必要的内存带宽)。4 x增加mac电脑,一些内存的增加和一些额外的I / O带宽需要被考虑。但这些会影响权力或区域的视觉处理器。减少带宽的最好方法是应用硬件和软件技术来限制需求的数据或从外部内存。


图4:保持神经网络加速器的mac充分利用需要增加内存和处理I / O带宽。

有很多技术来提高性能和限制带宽。量子化将32位浮点系数和数据转换为一个较小的整数格式- 8位是当前流行的格式带宽减少四分之一。无损压缩的特征图(每一层的中间输出CNN图)被写入外部存储器和解压读回所以可以减少带宽高达40%。稀疏(寻找和避免零数据)和系数修剪(发现接近零系数可以设置为零)是两个更减少带宽的技术。

除了这些硬件技术,新的CNN图形开发实现图形像ResNet早些时候的准确性或GoogleNet显著减少计算。MobileNet (v1和V2)和DenseNet是更现代的CNN分类图的两个例子。然而,尽管都是计算效率更高,只有MobileNet非常适合嵌入式应用程序。DenseNet地图拓扑需要广泛重用的特性,显著增加带宽和内存需求。附近MobileNet,另一方面,达到相同的精度明显较小的系数和带宽需求。

新技术管理带宽
研究神经网络的速度快速,所以新技术继续出现。Synopsys对此“新EV7x嵌入式视觉处理器IP介绍了两个先进的技术来减少带宽。第一,直接内存访问(DMA)广播分配系数或数据层计算期间内CNN图跨组的mac电脑。如果每组的mac电脑可以工作在相同的一组系数,这些系数可以读取一次,通过DMA分给每组、从而减少带宽。

第二个方法,多层次层融合,扩展了层合并的概念。层合并结合非线性激活函数的卷积计算和池(采样下来)CNN在一起。多级层融合结合组层合并,减少特征图的数量需要写入外部存储器。DMA广播和多级层融合结合先进的硬件功能和软件支持。应用于EV7x新的款加速器,DMA广播和多级层融合有助于性能提升67%和47%的带宽减少过去架构基于标准CNN图3520 MAC的体系结构上运行。

最新一代的视觉处理器,应用这些技术对于嵌入式开发人员更容易满足他们的力量,区域和绩效预算在设计基于愿景和人工智能改变生活的产品。

日常例子:面部识别,机器人…和自动驾驶汽车
从研究到实践现实,面部识别算法需要低功耗不间断的硬件上执行。想象使用硬件包括在停车计时器使用你的脸。面部检测算法可以在不间断模式运行在一个超低功率单片机等弧EM9D低功耗微控制器IP。当检测到脸,EV71 DNN880可以叫醒和用于执行一个快速面部检测是否可以被识别,然后迅速关掉节约用电。保护生物特征数据的保密和保护CNN图的拓扑和系数,嵌入式视觉处理器如EV7x包括高速AES加密。

让机器人和无人驾驶飞机穿过拥挤的环境——也许在交付你的午餐从当地的餐馆或包从你最喜欢的商店,需要应用多种视觉技术。同步定位和映射(大满贯)是一种算法的机器人研究使用相机输入地图机器人周围的环境,在这种环境下机器人的位置。机器人可以检测一个对象时,它不能识别它。这就是cnn进来,cnn是擅长识别对象。结合大满贯和CNN对其环境使机器人更聪明。EV72——两个向量处理单元——和DNN3520非常适合机器人或增强现实应用程序结合踩地图对象的向量处理单元与深层神经网络加速器来识别映射对象。

自动驾驶汽车带来额外的挑战对于嵌入式开发人员。不仅是摄像头在汽车的数量增加,每个相机的图像分辨率增加。和汽车取代人类,它必须以极大的可靠性、操作要求高水平的故障检测和冗余。嵌入一个视觉处理器35上衣性能带来了无人驾驶汽车有点接近。EV74与四维矢量处理单元结合大型DNN14K提供汽车前置摄像头/行人检测所需的性能,同时满足ISO26262功能(EV74DNN14KFS,图5)安全指导方针。以满足性能需求超出35上衣,也许汽车行人检测系统多幅相机,35上衣款EV7x处理器需要较少的情况下连接到一个network-on-chip (NoC)相比有竞争力的解决方案。更少的情况下减少NoC交通,减少潜在的性能瓶颈。


图5:嵌入式视觉处理器IP安全功能和安全巴士让无人驾驶汽车更接近现实。

所有这些带宽限制技术偿还的低端应用程序。面部检测可能只需要1顶部或更少,但是它非常敏感。

总结
新的CNN图,减少带宽技术和新的硬件/软件框架的最新学术研究被纳入新的嵌入式视觉处理器Synopsys对此EV7x等。整合EV7x视觉处理器IP是使领先企业部署高性能人工智能soc面部识别、机器人、汽车、和其他应用程序。

更多信息弧EV7x处理器IP加速器,款访问:https://www.synopsys.com/dw/ipdir.php?ds=ev7x-vision-processors



留下一个回复


(注意:这个名字会显示公开)

Baidu