不同客户的重要推理市场快速增长的优势。
直到最近,大多数人工智能数据中心/云,大部分是培训。事情正在改变很快。预测AI销售快速增长将数百亿美元到2020年代中期,大部分增长的边缘AI推理。
在数据中心/云推理开始工作站。获得效率,大部分的处理转移到ICs的mac电脑,尤其是Nvidia gpu。
在数据中心,一个推理加速器必须能够运行在数据中心中所有的模型。数据中心冷却,服务器作为PCIe董事会进一步冷却,所以可以燃烧75 w - 300 w计划书。由于数据中心比足球场大,在任何给定的时间可能有很多不同的工作运行相同的模式:他们可以分批处理给高总吞吐量(但在延迟一些成本)。大小的数据中心中运行的新模式正在快速增长。
推理在边缘(系统外的云)非常不同:
应用程序的每个人都认为首先是典型的自主车辆。但真正的自主驾驶十年或更长时间。在2020年代,推理的价值将在司机援助和安全(检测干扰、睡眠等)。设计周期4 - 5年,所以一个新的推理芯片今天不会出现在你的车到2025年或以后。
今天有什么其他市场使用边缘推理吗?
去年,Nvidia宣布推断销售首次超过培训。这可能是运送到数据中心,但也有许多应用程序之外的数据中心。
这意味着作为PCIe推理的销售板的边缘推理应用程序可能每年数亿美元和快速增长。
很多边缘服务器部署在工厂、医院、零售商店、金融机构及其他企业。在许多情况下,传感器的摄像机已经连接到服务器,但他们只是记录发生了什么事故或盗窃。现在,这些服务器可以作为PCIe推断,这些低成本的董事会。
有广泛应用:监测、面部识别、零售分析,基因组学/基因测序、工业检测、医学成像等。因为培训完成浮点和量化需要很多的技能/投资、最边缘服务器推理可能在16位浮点只有INT8最高容量的应用程序做。
直到现在,边缘服务器,推理使用Nvidia Tesla T4,伟大的产品,但2000美元+。许多低成本服务器,现在可以受益于推理加速器作为PCIe板价格低至399美元,但与吞吐量/美元相同或比T4。
应用包括机器人、工业自动化/检验、医学成像、科学成像相机监视和目标识别,光子学,等。在这些应用程序中,最终产品卖到数千到数百万美元,传感器捕捉0.5到6像素,和“步入正轨”是至关重要的,所以他们想要使用最好的模型(例如,YOLOv3,这是一个沉重的模型在6200万重量和> 3000亿mac处理2像素的图像),使用最大图像大小(就像人类一样,我们可以认识到人与大脆形象比小)。
这里的主要球员Nvidia杰森(Nano, TX2 Xavier AGX和泽维尔NX) 5-30W和250 - 800美元。
我们跟客户渴望吞吐量和正在寻找解决方案,给他们更多的吞吐量和更大的图像大小相同的功率/价格,今天他们使用:当他们得到它,他们的解决方案将会更加准确、可靠和市场将加速采用和扩张。因此,尽管应用程序现在的成千上万的单位,这将快速增长与推理的可用性,提供越来越多的吞吐量/和吞吐量美元/瓦特。
今天有推理加速器可以超越Xavier NX较低的权力和在每年几百万的价格/数量的1/10th泽维尔NX。这将推动推理加速度更高容量的应用程序的性能。
这个细分市场应该成为最大的随着时间的推移,由于广泛的应用程序。
低精度/成像质量
许多消费产品或应用程序,精度很好但不是关键会选择很小的图片和简单的模型就像微型YOLO。意思在这个空间的领导人是杰森Nano,英特尔Movidius,谷歌边缘TPU在50 - 100美元。
声音和低吞吐量推理
成像神经网络模型需要数以万亿计的mac电脑每秒30帧/秒的像素的图像。声音处理数十亿的mac /秒甚至更少的关键词识别。这些应用程序,像亚马逊呼应,已经采用和体积非常重要,但美元/芯片更少得多。球员们在这个市场是完全不同于上述细分市场。
手机
几乎所有的手机应用程序处理器有一个人工智能模块的SoC的本地处理简单的神经网络模型。主要的球员这是苹果,高通、联发科、三星。这是最高的AI单位体积部署在今天的边缘。
首先,延迟。边缘系统是决定图像高达60帧每秒。例如,一辆汽车,这显然是重要对象就像人一样,自行车和汽车被发现,他们的存在在尽可能少的时间采取行动。在所有的边缘应用延迟是# 1这意味着批量大小几乎总是1。
二是数字。许多边缘服务器客户将留在浮点很长一段时间,和BF16对他们来说是最简单的,因为他们只是截断16位FP32输入和权值。无风扇系统将INT8如果他们是高容量但许多将BF16如果卷在成千上万的量化的成本和复杂性。一个推理加速器,可以做给客户的能力开始迅速BF16和无缝地转移到INT8当他们准备在量化投资。
三是为客户吞吐量的模型和图像的大小。任何给定的客户通常是运行一个模型和知道他们的图像大小和传感器帧速率。几乎每一个应用程序要处理像素的图像(1、2或4)30帧速率甚至60帧/秒。大多数应用程序是视觉cnn但有许多应用程序不同的模型,即使是处理三维图像或图像处理时间(认为MRI等…)或激光雷达或金融建模。唯一顾客运行不止一个模型汽车必须处理器视野,同时激光雷达和1或2其他模型。
第四个是效率:几乎所有的客户想要更多的吞吐量/图像大小每美元和每瓦。大多数告诉我们,他们想增加吞吐量和增加他们当前的图像大小美元预算和预算。但随着吞吐量/和吞吐量美元/瓦特的增加,新应用将成为可能在低端市场的交易量非常大。
优势的可用性推理加速器替换cpu、gpu和fpga在更高的吞吐量和吞吐量美元/瓦特将导致快速市场扩张。
和快速增长的市场的众多竞争对手的存在将导致吞吐量快速创新,进一步提高效率和准确性。
未来五年将增长和创新的浪潮客户对于那些推理芯片公司的优越的架构。
留下一个回复