中文 英语

内存问题的人工智能芯片边缘

内存中计算变得非常关键,但记忆和流程节点是什么?

受欢迎程度

几家公司正在开发或增加人工智能芯片系统网络上的优势,但供应商面临各种各样的挑战过程节点和记忆的选择很大程度上取决与你一个应用程序。

网络边缘包含一个类的产品,从汽车和无人机安全摄像头,智能音箱,甚至企业服务器。所有这些应用程序将低功耗芯片运行机器学习算法。虽然这些芯片有许多相同的组件和其他数字芯片,一个关键的区别是,大部分的处理在或接近的记忆。

有鉴于此,AI边缘芯片的制造商正在评估不同类型的内存为他们的下一个设备。每个都有自己的的挑战。另外,芯片本身必须结合低功耗架构,尽管在很多情况下他们使用成熟的过程而不是最先进的节点。

人工智能芯片——有时称为深度学习加速器或处理器进行了优化处理各种工作负载使用机器学习系统。的一个子集人工智能机器学习,利用神经网络来处理数据和识别模式。它匹配特定的模式和学习哪些属性是很重要的。

这些芯片是针对整个光谱的计算应用程序,但在这些设计有明显的差异。例如,芯片开发云通常是基于先进的流程,设计和制造成本。和边缘设备,与此同时,包括芯片开发的汽车市场,以及无人驾驶飞机,安全摄像头,智能手机,智能门铃和语音助手,根据林利集团。在这个广泛的领域中,每个应用程序都有不同的需求。例如,一个智能手机芯片比创建一个门铃截然不同。

对于许多边缘产品,我们的目标是开发低功耗设备有足够的计算能力。“你不能负担得起一个300瓦的GPU。甚至一个30瓦GPU太多对于很多应用程序来说,“说林利Gwennap,林利集团首席分析师。“但设备制造商仍然想做复杂的东西。需要更多的人工智能能力比你可以从单片机。你需要的东西很强大,但不会耗尽电池或空你的钱包,尤其是如果它是一个消费应用程序。所以你必须看一些相当激进的新解决方案。”

首先,大多数边缘设备不需要芯片高级节点,因为它们太贵了。当然,也有例外。此外,许多人工智能芯片边缘处理的处理功能或附近的内存,以加快系统耗电更少。

供应商正在采取各种记忆方法,探索新的未来的芯片。其中包括:

  • 使用传统的记忆存储器等。
  • 使用新技术和flash称为模拟内存计算。
  • 利用相变内存、MRAM ReRAM和其他下一代记忆,正在探索人工智能芯片边缘。

人工智能爆炸
机器学习已经存在了几十年。多年来,尽管如此,系统没有足够的马力运行这些算法。

最近,机器学习,多亏了gpu和其他芯片的出现,以及机器生成的算法。

“机器学习在1990年代开始变得有用,”阿基说》的首席执行官d2。“但这改变了近年来随着gpu的出现。gpu启用深度学习发生因为有如此多的更多的计算能力。”

这些和其他设备的目标是处理算法在神经网络中,矩阵乘法计算和总结。一个数据矩阵是加载到网络。然后,每个元素乘以一个预先确定的重量,而结果传递给下一层的网络和乘以一套新的权重。几个步骤之后,结果是一个结论数据。

机器学习已经部署在多个行业,半导体行业,许多机器学习芯片供应商已经出现。许多人针对云开发芯片。在系统中,这些芯片旨在加速网页搜索,语言翻译等应用。这些设备市场超过30亿年的2019美元,根据林利集团。

许多人工智能芯片厂商也出现了,如环境、BrainChip, GreenWaves, Flex Logix,神话,Syntiant等等。总共有16亿边缘与深度学习加速器设备预计将船到2024年,该公司表示。

人工智能芯片边缘也使用8位运行机器学习算法计算。“你要处理数据的生成和使用。这里有一些巨大的优势。当我们开始,电池寿命。如果你不打开一个连接到互联网,并在本地你可以做人工智能,你节省大量的权力。响应性也很重要,以及可靠性,最终,隐私,”库尔特·布希说,Syntiant的首席执行官。“在深度学习,这也是内存访问。你的力量,以及你们的性能瓶颈都是记忆。其次,它也是并行处理。在深度学习,我可以做并行数以百万计的繁殖和积累与并行处理和有效线性尺度。”

人工智能芯片边缘有不同的要求。例如,智能手机将尖端应用程序处理器。但这不是门铃等其他优势产品,安全摄像头和喇叭。

“对解决方案有针对性的边缘,有一个经济学问题。它必须是敏感的。整个目的是竞争成本,低功率,和分布的计算更容易,”沃尔特·Ng说,业务发展副总裁联华电子

还有其他方面的考虑。许多人工智能边缘芯片供应商运输产品在成熟的节点,即40 nm左右。这个过程是理想的在某种程度上,因为它是便宜的。但展望未来,供应商想要更多的性能和低功耗。下一个节点是28 nm,这也是成熟的和便宜的。最近,铸造厂商各种22纳米工艺,介绍了扩展的28 nm。

22纳米略高于28 nm,但价格高。大多数供应商不会迁移到finFETs16岁/ 14 nm,因为它太贵了。

移动到下一个节点并不是一个简单的决定。“许多客户和他们的应用程序是在40 nm的今天,“Ng说。”看他们的下一个节点的路线图,他们会感到满意并得到最好的28 nm货真价实?还是22纳米看起来更有吸引力比28 nm和提供更多的福利吗?考虑这是一个很多人都在找。”

使用传统的记忆
也有其他的考虑。在传统的系统中,内存层次结构很简单。为此,静态存储器是集成在处理器缓存,可以访问常用程序。用于主内存,动态随机存取记忆体是单独的,位于一个内存模块。

在大多数系统中,内存和处理器之间的数据移动。但这种交换导致延迟和功耗增加,有时被称为记忆的墙,并且它可以越来越有问题的数据量上升。

这就是——或者near-memory计算适合。内存中将内存内的处理任务,而near-memory将内存接近逻辑。

并不是所有的芯片使用内存中的计算。AI边缘芯片供应商,然而,用这些方法来帮助分解记忆墙。他们也出售一些处理功能的云。

例如,去年Syntiant推出了其第一产品,一个“神经决定处理器”,其中包括一个神经网络架构在一个小小的,低功耗芯片。40 nm音频设备还包含一个手臂Cortex-M0处理器和112 kb的RAM。


图1:Syntiant NDP100音频处理器来源:神经决定Syntiant

使用SRAM-based内存,Syntiant分类架构near-memory计算。芯片背后的想法是使声音作为系统的主界面。亚马逊的Alexa的一个例子是一个不间断的声音接口。

”声音是自然下一代接口,“Syntiant Busch说。“我们特制的这些解决方案添加一个不间断的声音接口几乎任何电池驱动的设备,从大小,助听器一样大笔记本或智能演讲者。”

展望未来,Syntiant开发新设备,观察不同的内存类型。“我们正在研究一些新兴的内存技术MRAMReRAM说,主要是密度,“杰里米•Holleman Syntiant首席科学家。“阅读能力,然后空闲的实力也是一件大事,因为你最终拥有很多内存大模型。但是,也许你只做计算给定实例在一个相当小的子集。存储单元的能力来降低它的力量的时候不是很重要。”

现在不需要先进的流程。“在可预见的未来,advance-node泄漏太高了对于超低功耗的应用程序,“Syntiant Busch说。“设备边缘常常什么也不做。他们的等待事情发生,而不是设备在数据中心。你想要做什么。设备边缘往往等待事情发生。所以你需要非常低功耗,高级节点并不擅长。”

有一些问题。今天大多数人工智能芯片依靠内置SRAM,很快。“但是配件数百万权重的一个独立的数字边缘处理器使用SRAM是非常昂贵的,无论技术,“Agrawal Vineet Kumar说,设计IP业务单元负责人柏树。“让数据从DRAM 500 x更昂贵的比它从内部存储器。”

与此同时,许多人工智能边缘芯片供应商正在使用或查看另一个内存类型还是。非易失性闪存,是用于独立和嵌入式应用程序。也不是经常用于代码存储。

也不成熟、健壮,但它需要额外的面具和昂贵的步骤在每个节点。和很难规模也超过28 nm / 22纳米。然而,使用今天的flash,几家公司正在开发一个叫做模拟内存计算技术。大部分这些设备从40 nm节点开始。

“如果你看看传统的数字智能建筑,电力消耗的两大来源是要做computations-the乘、加。然后第二件事是把数据从内存和计算单元,“林利集团Gwennap解释道。“有些人想做的是解决这两个问题。他们将计算到记忆电路,这样你不需要移动数据非常远。而不是使用传统的数字乘法器,他们使用模拟技术,您可以运行电流通过一个可变电阻。然后你可以使用欧姆定律来计算电流和电阻的乘积。还有你用。”

Analog-in-memory承诺减少权力。但并不是所有也不一样的。例如,一些还是技术都基于浮栅结构。

使用一个基于nor浮栅的方法,模拟内存芯片开发了一个机器学习的计算架构。该技术集成了一个multiply-accumulate (MAC)处理引擎。

“通过这种方法,用户不需要在SRAM存储模型参数或重量或外部DRAM,“一些女子说,芯片的嵌入式内存产品开发主管的SST单位。“提供输入数据为MAC计算数组。消除了在MAC计算内存瓶颈,因为计算权值存储的地方。”

还有其他也没有选择。例如,柏树在一段时间内一直提供不同的嵌入flash技术也称为SONOS的。基于电荷捕获flash, SONOS two-transistor技术。阈值电压可以改变通过添加或删除一个电荷的氮化层。它可以在各个节点到28 nm。

SONOS可以优化作为嵌入式内存机器学习。“两个SONOS multi-bit嵌入式非易失性内存细胞可以取代8 SRAM细胞,这是48个晶体管。这里面积效率。你也有50 x 100 x在功率效率和吞吐量,改善“柏树Agrawal说。“SONOS的程序使用一个高度线性和低功率能够针对Vts的隧穿过程控制、高导致nanoamp位单元电流水平。这是反对浮栅,它使用热电子,你没有控制多少电流进入细胞。另外,你的电池电流要高得多。”

使用新的记忆
但也无法规模超过28 nm / 22纳米,AI边缘芯片厂商正在考虑几种下一代记忆类型,如相变内存(PCM), STT-MRAM, ReRAM等等。

对人工智能,这些记忆也运行机器学习和神经网络应用程序。


图2:模拟Compute-In-Memory加速器毫升用新的记忆来源:Imec

这些内存类型是有吸引力的,因为他们把SRAM的速度和flash的non-volatility无限的耐力。但新的记忆已经不再发展,因为他们使用复杂的材料和转换方案来存储数据。

“半导体制造商面临新的挑战时从charge-based内存(SRAM、)迁移到电阻存储器(ReRAM PCM)、“Masami青木说,亚洲区域主任过程控制解决方案心理契约。“这些新兴的记忆由新元素,需要精确地控制材料属性和新缺陷控制策略,以确保性能一致性和可靠性,特别是对大规模集成。”

一段时间,不过,英特尔已经航运3 d XPoint,这是一个脉码调制。微米也是航运PCM。非易失存储器,PCM存储数据通过改变材料的状态。它的速度比闪电与更好的耐力。

PCM是一项具有挑战性的技术开发,虽然厂商已经解决的问题。“3 d XPoint,相变内存、硫属化合物的化学环境条件和过程,是出了名的敏感”Rick Gottscho说执行副总裁兼首席技术官林的研究。“有各种各样的技术策略来处理所有的事情。”

PCM也正在针对人工智能。在2018年,IBM发表了一篇论文在一个8位精度内存使用PCM乘法技术。IBM和其他公司继续工作在PCM AI边缘应用,尽管没有人在卷运输产品。

STT-MRAM也是运输。以静态存储器的速度和flash的non-volatility无限的耐力。它使用的磁性电子自旋在芯片提供非易失性属性。

STT-MRAM非常适合嵌入式应用程序,替换也针对22纳米。“如果你看看新的记忆,MRAM是最好的为低密度,小于一个千兆。嵌入式内存MRAM是最好的。这比那一代的人即使你能做的还是在像28 nm或更大。也增加了12 +面具所以MRAM是首选选择嵌入基于成本、密度和性能,”马克韦伯说,MKW企业负责人咨询。

然而,MRAM只能支持两个级别,所以它不适合内存计算,根据一些专家。其他人有不同的观点。“MRAM设备的确只能存储一个,“Diederik Verkest说,杰出的成员在Imec技术人员。”然而,在内存中计算的环境中,重要的是要理解是有区别的内存设备和compute-cell。计算细胞执行乘法存储体重和输入的激活。在最优的情况下,计算细胞内部的存储设备可以存储多个级别的体重。然而,可以使计算细胞重量在哪里存储使用多个存储设备。如果使用三级权重(重量可以1 0 1),那么可以使用两个内存设备的计算单元由两个内存设备和一些模拟电路来计算产品的重量值和激活。所以MRAM设备可以使用计算细胞内储存多层次权重,构建compute-in-memory解决方案。”

ReRAM是另一个选择。这种技术有较低的延迟阅读,比闪电更快的写性能。在ReRAM电压材料堆栈,创建一个电阻的变化,记录数据的内存。

在最近IEDM会议,Leti发表了一篇论文的发展神经网络集成的飙升(SNN)芯片使用模拟和ReRAM技术。130纳米测试芯片每上升3.6 pj能量耗散。设备使用28 nm FD-SOI研发。

SNNs比传统神经网络是不同的。“它不使用任何力量,直到输入的变化,“林利集团Gwennap说。“所以,在理论上,这是理想的如果你有一个摄像头,这是看你的前院。没什么变化,直到有人走过。”

Leti SNN设备是理想的边缘。”还有待观察到底是什么意思,但我可以ReRAM和SNNs尤其适合端点设备,”亚历山大·瓦伦特说,在Leti研究工程师。“ReRAM和飙升的编码是一个不错的选择,因为这种编码策略简化内存计算。没有必要DAC的输入(如矩阵向量乘法),它简化了ADC的输出(低的比特数)或最终完全删除如果神经元模拟。”

然而,ReRAM很难发展。只有少数有出货的部分。“ReRAM由美国和其他伟大的理论上1 t1r设计(嵌入式)和1 tnr将来通过适当的相交点选择器。面临的挑战是在实际产品开发缓慢,在过去的两年。我们相信这是由于问题保留和扰乱和循环存储元素本身。这些需要解决,我们需要实际产品64 mbit嵌入式和1 gbit交叉点,“MKW韦伯说。

总之,没有共识下一代记忆类型适用于人工智能应用。这个行业继续探索当前和未来的选择。

例如,Imec最近评估几个选项来启用10000顶/ W矩阵向量乘法器使用一种叫做AiMC模拟内存计算架构。

Imec评估三个选项——SOT-MRAM;IGZO DRAM;和投影PCM。在手性力矩MRAM (SOT-MRAM)是下一代MRAM。Indium-gallium-zinc-oxide (IGZO)是一种新型的晶体结构。

“几个设备选项可以用来存储款的重量。使用不同的机制来存储列出的设备重量值(磁、电阻、电容)和导致的不同实现AiMC数组,“Imec Verkest说。

结论
目前还不清楚当前或未来的新一代记忆技术是获胜者。也许有一个地方所有的技术。SRAM,也和其他传统记忆也有一席之地。

不过,显然不太可能有几十个人工智能芯片厂商的空间。已经有迹象表明一个洗牌,大公司开始购买创业。对于任何新芯片部分,有些人会成功,有些人会被收购,其他人将会失败。



3评论

哈利 说:

什么是你承担“Non-filamentary界面切换ReRAM”正在开发的4 ds /数字/ IMEC西部。

马克LaPedus 说:

这就是马克·韦伯MKW企业负责人咨询,说:

1)“4 ds继续发展技术与稳定发展并公开向投资者和公众发布结果。4 ds提出了他们的技术作为解决方案> 1 m循环耐力和DRAM的速度。”

2)“4 ds在我们看来是背后细丝的公司(即横梁)在时间轴上生产的晶圆生产过程和产品学习。但没有ReRAM技术似乎是在先进生产节点的今天。”

3)“当灯丝转换限制和挑战的今天,不是明显的从数据显示到目前为止,界面切换显然更好的性能。我们会看到更多的数据发表在期刊和会议> 1 mbit数组循环和保留的结果。”

4)“我们新兴内存产品生命周期比较时间的内存技术和显示,细丝的解决方案从批量生产至少2年和4 ds从批量生产4 - 5年。如果一个大型半导体公司优先增加技术,他们可以把这些时间50%。

Karthikeyan Srinivasan 说:

不错的文章,但我有一个奇怪的问题

将工具用于这些芯片嵌入与人工智能芯片基本机器学习和预测分析工具的日志其实是做好从工具开始运行的产品吗?

留下一个回复


(注意:这个名字会显示公开)

Baidu