18lickc新利
的意见

低功耗深度学习实现汽车ICs

专用的CNN引擎可以满足设计功率预算的区别或失踪。

受欢迎程度

汽车应用的例子比比皆是,高性能、低功耗的嵌入式视觉处理器,从车内驾驶员睡意检测,自动驾驶汽车“看到”和行人路,迎面而来的汽车,或者偶尔的动物过马路。实现深度学习在这些类型的应用程序需要大量的处理能力最低的功耗。处理能力需要执行卷积神经网络(cnn)——目前最先进的嵌入式视觉应用程序——而低功耗将延长电池寿命,提高用户体验和差异化竞争优势。达到最好的最低功率CNN图表现一个ASIC或集成电路,如汽车ADAS系统(图1),设计师转向专用CNN引擎。


图1:TinyYOLO CNN图提供了一个示例的汽车和监视应用程序的目标检测和分类。

芯片选择深度学习的实现
gpu帮助开启了深度学习计算的时代。所获得的性能改进萎缩死几何图形结合gpu的计算能力提供所需的马力执行深度学习算法。然而,更大的模具尺寸和更高的力量被gpu,最初建立的图形和重新设定深度学习,限制他们在power-sensitive嵌入式应用程序的适用性。

向量需求方——非常大的指令字SIMD处理器——设计成通用引擎执行常规编程的计算机视觉算法。一个向量DSP的能力来执行同步multiply-accumulate (MAC)操作允许它运行所需的二维旋转比GPU CNN图更有效地执行。添加更多的苹果一个向量DSP将允许它来处理更多的cnn周期和提高帧速率。可以获得更多的权力和区域效率增加向量DSP专用CNN加速器。

然而,最好的效率可以通过专用的但灵活的CNN引擎搭配一个向量DSP。专用的CNN引擎可以支持所有常见CNN操作(例如,曲线玲珑,池、elementwise)而不是加速旋转,并将提供最小的面积和功耗,因为是定制设计的这些参数。仍然需要向量DSP视频图像的预处理和后期处理。

专用的CNN引擎,优化了内存和寄存器复用,增加MAC操作的数量一样重要,CNN引擎可以执行每秒钟。如果处理器没有带宽和内存架构来养活那些mac电脑,系统将不能实现最佳性能。专用的CNN引擎可以调优内存和寄存器重用在ResNet等最先进的网络,《盗梦空间》,YOLO,意思和MobileNet。

可以实现更低的功率与天生的ASIC设计。这可以时所需的解决方案行业同意一个标准。例如,视频压缩使用可编程设备上实现h是在标准的决定之前,然后上实现asic。而CNN已成为最先进的嵌入式视觉标准处理,CNN实现持续发展和保持一个移动的目标,要求设计师实现灵活,不会过时的技术解决方案。

准确的在系统功率测量pre-silicon
最敏感的嵌入式视觉的应用,视觉处理器专用CNN引擎可以满足设计的功率预算的区别或失踪。选择一个专门的CNN引擎似乎直观,但你如何衡量权力硅可用之前?

考虑应用程序的性能阈值功率预算紧张,如电池的物联网智能家居或移动设备运行面部识别。面部识别,根据所需的帧大小,帧率,和其他参数可能需要几百GMAC / s的嵌入式视觉处理能力。ASIC或集成电路设计现在必须找到一个嵌入式视觉解决方案,它可以执行网络在设计的功率预算——比方说几百兆瓦。

不幸的是,比较不同视觉处理器IP并不简单。出血边缘IP解决方案往往还没有达到硅,和每个实现都是不同的,很难计算和比较能力或性能之间的IP选项。不存在任何基准标准来比较美国有线电视新闻网的解决方案。FPGA原型平台会提供准确的基准,但不准确的估计。

计算功耗的方法之一是运行一个RTL或网络列表切换的基础模拟捕捉所有的逻辑。这些信息,使用的布局设计,可以提供一个良好的估计。对于较小的设计,仿真可以在数小时内完成(例如,运行CoreMark或Dhrystone嵌入式RISC核心)。对于大的设计,模拟运行缓慢。对于较大的CNN图表要求高帧率,模拟可能要花上几周才能达到稳态测量能力。有一个真正的风险当IP供应商跳过这样艰巨的功率测量的估计功率通过快捷键使用较小的仿真模型,从而推动问题下游IC供应商签字IP供应商的权力分析索赔。

Synopsys对此的瘤牛服务器(图2)提供了一个巨大的效益分析和测量能力的IP开发人员和集成电路设计师。瘤牛服务器支持先进的使用模式包括电源管理验证、综合调试和威尔第集成、混合仿真和虚拟原型和建筑探索和优化。它有额外的设施准确计算能力为成千上万的时钟周期,例如曼哈顿GPU框架,在几个小时而不是几个月。集成电路设计者可以使用瘤牛优化能耗系统的所有元素。


图2:Synopsys对此的瘤牛服务器可以用来准确地估计功耗的元素在一个集成电路,和整个集成电路设计。

一旦你有了一个准确和有效的方法测量的应用软件,您可以分析不同的设计配置的权衡能耗降到最低。这些权衡可以一天多次迭代和细化使用瘤牛功率流分析。

第一步切割系统的权力
对于给定的流程节点,减少权力的最简单的方法是开始降低的频率设计。其他低功耗技术包括近门槛逻辑的逻辑运行在一个较低的电压,大大减少所需的功率开关晶体管。减少外部总线带宽也有助于减少权力。外部总线活动越少,功率消耗越少。对于嵌入式视觉应用程序,增加内存的大小会降低带宽,从而降低权力,即使它将提高整个区域的设计。设计师也可以减少带宽和降低功率使用压缩技术在CNN图表来减少计算和内存使用。

更少的权力,更多麦迪/ s
低功率需求并不局限于设计使用小型CNN图表。自主车辆,例如,可能需要大量的嵌入式视觉性能——一个或多个8 mp摄像头运行60 fps可能需要20到30麦迪/ s计算能力——所有的最低功率预算。注意这些麦迪/ s的要求也可以列为tera-operations每秒(前/ s)。因为MAC周期包含两个操作(一个乘法和一个积累),MAC / s转换为行动/ s乘以2。

对于这个应用程序,有一个专门的CNN最低的功率只是帮助如果它可以扩展到更高水平的性能。嵌入式视觉处理器,如Synopsys对此EV6x家庭,以两种方式应对这一挑战,缩放mac电脑的数量在每个CNN引擎,然后通过扩展CNN引擎在公共汽车上织物的多个实例(例如,定制NoC或标准AXI)。顶部的图3显示了EV61处理器与880 MAC CNN等较小的应用低功耗物联网智能家居设备。EV61可以集成一个880 MAC, 1760 MAC 3520 MAC CNN的发动机,以满足特定的应用程序需求。应用程序需要更高性能、多个EV处理器(图3)的底部可以实例化一个AXI总线或定制高性能NoC织物,提供更多的mac与最有效的性能/权力配置文件在嵌入式应用程序。


图3:Synopsys对此“DesignWare EV6x处理器可以实现一个小880 CNN引擎设计,到更大的CNN沿着AXI总线性能。

总结
达到最好的最低功率卷积神经网络(CNN)图表现一个ASIC或IC,设计师转向专用CNN引擎。实现一个设计一个模拟系统就像瘤牛服务器是一种更准确的确定和比较功耗嵌入式处理器之间不是依赖粗略估计IP提供商。一个紧密集成处理器和CNN引擎,如DesignWare EV6x嵌入式视觉处理器家庭,提供证明和可衡量的效率、性能和功耗。



留下一个回复


(注意:这个名字会显示公开)

Baidu