中文 英语
18lickc新利
的意见

人工智能在边缘:人工智能优化算法在不牺牲准确性

使用基准指导实现人工智能压缩技术没有过度影响精度。

受欢迎程度

AI的最终衡量成功的将它增加多少生产力在我们的日常生活中。然而,行业巨大的挑战在评估进展。艾城的大量应用也在不断地流失:找到合适的算法,优化算法,找到合适的工具。此外,复杂的硬件工程是正在更新迅速,有许多不同的系统架构。

近年来人工智能硬件的难题

斯坦福大学2019年的一份报告指出,艾比硬件开发加速更快。“2012年之前,AI的结果密切跟踪摩尔定律,计算每两年就翻一番。[…]2012后,计算每3.4个月翻一番。”

自2015年以来,当物体识别的人工智能算法打败了人为错误,大量投资在人工智能硬件驱动半导体IP加快新一代加工,记忆,和更高的带宽接口来保持同步。图1显示了一个AI竞争发展迅速,利用bp神经网络和现代在2012年被引入,结合重从Nvidia GPU计算引擎。

图1:2012年现代神经网络的介绍后,分类错误迅速减少并迅速击败人为错误的结果。

人工智能算法

人工智能算法也太大,要求执行在soc设计的消费产品要求低功耗,小面积和低成本。因此,人工智能算法压缩使用技术,如修剪和量化。这些技术使系统需要更少的内存和计算不过将影响精度。工程的挑战是实现压缩技术而不影响精度超出需要的应用程序。

除了人工智能算法复杂性的增长,推理所需的数据量也大幅增加,因为增加的输入数据。图2显示了一个优化所需的内存和计算视觉算法设计一个相对较小的足迹6 mb的内存(SSD-MobileNet-V1内存需求)。正如你所看到的,更大的挑战在这个例子不是人工智能算法的大小而是数据输入的大小。像素增加由于增加像素大小和颜色深度,5 mb的内存需求已经超过400 mb的最新图像捕获。今天,最新的三星手机CMOS图像传感器相机支持多达108个议员。这些相机理论上可能需要每秒40 tera操作(上衣)性能在30 fps和1.3 gb的内存。技术在isp和特殊地区的人工智能算法的兴趣这些极端的需求有限。40上衣性能还不能使用手机。但是这个例子强调了复杂性和挑战在边缘设备和驱动传感器接口IP。MIPI CSI-2是专门针对特征与感兴趣的区域功能,为了解决这个问题,MIPI C / D-PHYs继续增加带宽来处理最新的CMOS图像传感器数据驱动向数以百计的像素大小。

图2:要求SSD-MobileNet-V1工程6 mb的内存,像素大小的基准测试结果。

解决方案今天AI压缩算法,压缩图像,并专注于感兴趣的区域。这使得优化硬件极其复杂,尤其是在soc的内存有限,有限的处理,和小功率预算。

许多顾客基准人工智能的解决方案。现有的soc基准测试有几种不同的方法。每秒Tera操作性能的主要指标。额外的性能和电力措施给出一个清晰的芯片的功能,如芯片类型和品质的操作过程。每秒的推论也是一个领先指标,但需要上下文的频率和其他参数。所以,额外的基准开发评估人工智能硬件。

有标准化基准像来自MLPerf /毫升共用和ai.benchmark.com。毫升共享提供计量规则与准确性,速度和效率,这是非常重要的对于理解硬件可以处理不同的人工智能算法。正如前面提到的,没有理解准确性的目标,压缩技术可用于人工智能融入脚印很小但准确性和压缩的折衷方法。毫升Commons还提供了常用数据集和最佳实践。

在瑞士苏黎世计算机视觉实验室移动处理器和公布他们的研究结果也提供了基准和硬件要求以及其他信息,从而重用。这包括78和180多个方面的性能测试。

斯坦福大学的一个有趣的基准,称为DAWNBench,此后毫升下议院支持的努力下,但测试本身不仅解决人工智能表现分但也总时间处理器执行培训和推理的人工智能算法。这个地址的一个关键方面的硬件设计工程目标减少总体拥有成本,或所有权的总成本。时间过程人工智能决定基于云的AI租赁或边缘computing-based所有权的硬件更可行的组织对其整体人工智能硬件策略。

另一个流行的基准方法是利用常见的开源ResNET-50等图表和模型。与这些模型有三个问题。不幸的是,ResNET-50是256×256的数据集,这未必是最终决议,可用于应用程序。其次,该模型比许多新老和少层模型。第三,模型可能手优化处理器IP供应商并不能代表系统如何将执行与其他模型。但有大量可用的开源模型使用超出ResNET-50可能更具代表性领域的最新进展和提供良好的性能指标。

最后,定制的图表和模型为特定的应用越来越普遍。这是理想的情况下最好的情况为基准的人工智能硬件和确保优化可以有效地降低功率和提高性能。

SoC开发者都有非常不同的目标像一些SoC看起来为高性能AI提供一个平台,其他为低性能,一些各种各样的功能,而另一些非常具体的应用。soc,不知道他们需要优化的人工智能模型,一个健康的定义和公开可用的模型提供了一个良好的性能和力量的迹象。这种混合是最常见的在今天的就业市场。然而,上述这种更新的基准标准的出现似乎采取一些相关性比较soc后引入市场。

Pre-silicon评估

由于优化的复杂性在边缘,AI今天必须合作设计软件和硬件解决方案。为此,他们必须使用正确的基准测试技术,如前面列出的那些。他们还必须使用工具允许设计师准确地探索不同系统的优化,SoC,或半导体IP,调查流程节点,记忆、处理器、接口等等。

Synopsys对此提供了有效的工具来模拟、原型和基准的IP, SoC和更广泛的系统在某些情况下。

Synopsys对此也许不久原型开发的解决方案通常用于演示功能不同配置的处理器和权衡。特别是Synopsys对此表明更广泛的人工智能系统的带宽,在处理器之外,开始是一个瓶颈,当更多的带宽传感器输入(通过MIPI)或内存访问(通过LPDDR)可能不是最优的处理任务。

电力仿真,供应商的估计可以相差很大,仿真证明了更好的模拟和/或静态分析的人工智能工作负载。这就是Synopsys对此瘤牛仿真系统可以发挥重要的作用。

最后,SoC设计的系统级视图可以探索平台架构师。最初用于内存和处理性能和电力勘探、平台架构师最近被越来越多的用于理解系统级性能和功率对人工智能。灵敏度分析可以确定最佳的设计参数与预先构建的模型使用Synopsys对此IP LPDDR,电弧对人工智能处理器,记忆,和更多。

总结

硬件AI算法将不断变化,当这些技术从云边缘,工程问题优化变得更加复杂。为了确保竞争成功,pre-silicon评估越来越重要。合作设计的硬件和软件已经成为现实,正确的工具和专业知识是至关重要的。

Synopsys对此有一个证明的IP组合使用在许多AI SoC设计。Synopsys对此有一个经验丰富的团队开发人工智能处理解决方案从ASIP设计弧处理器。投资组合的基础知识产权包括内存编译器已经广泛采用了人工智能出类拔萃。人工智能应用程序接口IP范围从传感器输入通过I3C MIPI,通过CXL到连接,作为PCIe,和Die-to-Die解决方案,并通过以太网网络功能。

最后,Synopsys对此工具提供一种方法,利用专业知识,服务,和证明IP的环境最适合优化人工智能硬件在这个不断变化的景观。



留下一个回复


(注意:这个名字会显示公开)

Baidu