中文 英语

人工智能芯片架构的优势

公司战斗出来让人工智能边缘使用各种芯片架构作为他们的武器选择。

受欢迎程度

随着机器学习应用程序开始出现在端点设备和物联网的网络优势,使AI的加速器可能看起来更像比现有data-center-bound芯片FPGA和SoC模块从英特尔或Nvidia。

人工智能机器学习需要强大的芯片计算答案(推理)从大型数据集(培训)。大多数AI chips-both培训和inferencing-have开发数据中心。然而,这一趋势将很快改变。很大一部分的处理将会发生在边缘,在网络的边缘或在或接近传感器和传感器阵列。

培训几乎肯定会留在云,因为最有效的交付的资源大部分来自于Nvidia gpu,主导的市场。尽管数据中心的培训和其庞大datasets-the推理最终可能主要是边缘。市场预期似乎同意这一点。

推理硬件是新的但市场变化迅速,据Aditya Kaul Tractica和作者的研究主管报告边缘设备的人工智能。“有一些机会在数据中心和将继续。他们(基于云计算的数据中心的人工智能芯片)市场将继续增长。但它的边缘,在推理,事情变得有趣的地方,”科尔说。他说,至少有70专业AI公司正在从事某种chip-related AI技术。

“边缘是会得到有趣的地方与智能手机、机器人、无人机、相机、安全相机都将需要一些人工智能处理的设备,“Kaul说道。


图1:深度学习芯片组收入由市场部门。来源:Tractica

到2025年,基于云计算的智能芯片将占146亿美元的收入,而edge-based AI芯片组将带来51.6美元- 3.5 x大于数据中心,由主要的手机,智能音箱,无人机,AR / VR耳机和其他设备都需要人工智能处理。

虽然Nvidia和英特尔可能主导市场地方机器学习应用程序现在,谁将拥有人工智能的边缘市场computing-far离开数据中心吗?这些芯片会是什么样子?

人工智能芯片边缘需要做什么
边计算、物联网和消费终端设备,将需要高性能推理处理以相对低的成本,价格和模具尺寸,根据富Wawrzyniak ASIC和SoC Semico分析师研究。这是困难的,特别是因为大多数边缘设备的数据将过程的视频或音频数据。

“有很多数据,但是如果你有一个监控摄像头,它必须能够识别实时坏人,不发送图片到云,等着看是否有人认识他,”Wawrzyniak说。

一些渴望加入ML-level智能边缘设备来自于需要保持这些设备私有数据,或减少发送到云的成本。然而,大部分的需求来自客户希望在计算设备设施或在客户的手中,而不是简单地收集数据并定期发送给云端,这样他们就可以直接与该公司自己的数据交互实时或其他顾客和路人。

“顾客意识到他们并不想通过很多处理云,所以他们思考才是真正的目标,”马库斯·利维,NXP半导体AI技术主管。“现在你可以做人工智能的优势,可以把物联网变成真正的功能。我们看到增长非常快之间的消费物联网和工业物联网嵌入式,这些都是我们最大的增长领域。”

业务技术客户IDC表示,他们今年的调查肯定是移动机器学习边缘设备,主要应用于汽车、智能家居、视频监控相机和智能手机,根据肖恩·劳,IDC的分析师,他的客户调查命名这四个设备作为毫升的候选人。

架构趋势AI边缘

边要求计算的范围可能包括数十亿工业和消费设备,所以不太可能,任何单一的体系结构可以满足他们所有人。

可以微控制器上运行推理模型和相对低端芯片,但大多数机器学习功能需要增加从一个已经成为一长串的可选的基于CPU插件fpga、asic和其他SoC配置,以及组合的gpu, cpu和偶尔的专用asic像谷歌的张量处理单元,NXP的Levy说。

大部分的帮助形式的加速器。这些fpga、soc ASIC和其他专用芯片的设计是为了帮助资源受限,基于x86的设备处理大量图像或音频数据通过一个又一个层分析标准的应用程序可以正确计算和体重的价值。

英特尔和Nvidia突围向边缘人工智能市场。努力如Nvidia的Jetson-a GPU模块平台7.5 w功率预算的一小部分Nvidia的更典型的70 w但是太高了边缘的应用程序往往不会超过5 w-have没有说服力,Kaul说道。

“有很多IP公司正在加速神经网络,所以有足够的选择,加速器开始成为推理在边缘设备的需求,”Levy说。


图2:AI边缘设备出货量的类别。来源:Tractica

但添加毫升加速度和支持可能数以十亿计的设备需要更多的可定制性,降低成本和规格定制更具体地说毫升的需要应用在资源受限的devices-meaning整个市场需要更好的处理器如果它会成功。

神经推论需要数万亿multiply-accumulate步骤的模型将数据从一个层的矩阵公式,虽然每一层可能需要不同的数据大小,和一些设备可能跑得更快输入设置为8位整数而不是16。

“良好的吞吐量在数据中心,大多数架构依赖数十或数百个任务必须使用相同的权重集创建批次,“根据杰夫•泰特联合创始人兼首席执行官Flex Logix。“如果你有28个图片,你加载的图片,负载权重为第一阶段,为第一阶段做数学,保存结果,然后加载第二阶段的权重。通过每一层上所有28个批次你减少负重时间1/28如果你做这一次。如果加载和管理权重是你不擅长的事,你绕过它的批处理。这就是为什么你会看到基准显示批28比批1运行效率较低。如果你是缓慢的加载重量,很难。但这正是你需要做外面任何地方的数据中心。如果你有一个监控摄像头,你必须处理图像时,这批大小总是等于1。如果你测量性能,批量大小总是等于1以外的数据中心。

神经网络引擎Flex Logix发展避免了批处理问题。“因为我们负载重量如此之快,我们不需要做配料,所以我们的性能是相同的批1 28岁,在边缘的应用是非常重要的,”泰特说。

两个新的努力推断硬件
Xilinx fpga试图利用其经验和系统性设计新产品线和路线图,旨在解决边缘/设备市场的许多地方。

去年春天公司讨论这个想法但只有10月宣布正式描述一种自适应计算加速平台”的力量利用cpu、gpu和fpga加速任何应用程序。”

Xilinx报告描述了一个广泛的产品线,用例列表和细节关于人工智能引擎的核心,目标是提供三到八倍性能/硅面积比传统方法和提供高性能DSP功能。

Flex Logix,与此同时,创造了一个可重构神经加速器使用DRAM低带宽。硅区域的目标规范和权力将在明年上半年,今年下半年tape-out。推论引擎将作为CPU,而不是简单的一个更大的,更漂亮的加速器。它提供了一个模块化的、可伸缩的架构旨在减少时间和精力的成本通过减少移动数据需要移动它,通过提高数据和矩阵计算负荷减少瓶颈。

芯片投入动态随机存取记忆体就好像它是致力于一个单处理器块而不是管理一个大的内存池。DRAM不提要数据同时芯片的几个部分。“治疗DRAM,这是非常昂贵的,因为一个大的内存池流入一个处理器块是典型的范·诺伊曼体系结构,但不会获得神经网络架构,”泰特说。

早期

Xilinx的热潮,Flex Logix为推理和其他公司在市场边缘显示广泛的信心在市场和SoC和FPGA制造商的能力提供良好的技术处理,Wawrzyniak说,但这并不能保证他们能够克服诸如安全、隐私、现状和其他无形资产的惯性,他说。ML-accelerating市场fpga、asic和soc仍处于起步阶段。

是很正常的看到很多新球员和新方法在一个新的市场的发展,根据林利Gwennap林利集团。FPGA和ASIC的供应商组合,因为这些技术允许一个公司,知道它是做什么迅速产生一个合理的产品。标准最终将返回在一年或两年,然而,这将稳定的数量和专业涉及的球员和确保互操作性与其它市场,他说。

有关的故事

IIoT边缘是一个移动的标靶

挑战在边缘

向IIoT安全标准

如何确保网络优势



留下一个回复


(注意:这个名字会显示公开)

Baidu