人工智能开始重塑芯片设计

技术增加了更大的粒度,但随着体系结构处理更大的数据量,设计的出发点发生了变化。

受欢迎程度

随着架构师开始利用人工智能的能力来提高性能和降低功耗,人工智能开始影响半导体设计,为未来芯片的开发、制造和更新方式的一系列根本性转变奠定了基础。

人工智能——机器学习而且深度学习子集-可用于大大提高芯片内特定功能的功能控制和功率/性能。出于这些目的,它可以在现有设备上分层,也可以整合到新的设计中,允许它应用于广泛的功能或针对非常狭窄的功能。

人工智能提供了许多好处。其中包括:

  • 它增加了粒度,通过更稀疏的算法或数据压缩来改变特定函数的准确性,从而加快性能并降低功耗。
  • 它提供了将数据作为模式而不是单个比特来处理的能力,有效地提高了计算的抽象级别,并增加了软件的密度。
  • 它允许处理和内存读/写作为一个矩阵来完成,极大地加快了这些操作。

但人工智能也需要重新思考数据如何在芯片之间或芯片之间移动(或不移动)。无论它是应用在边缘还是数据中心,无论它涉及训练还是推理,正在处理和存储的数据量都可能是巨大的。

新的起点
从好的方面来看,人工智能提供了一种方法来平衡高度精确的结果,与使用更多的元素,但精度较低,以达到足够好的精度。就语音识别而言,在安全应用中,精度远不如面部识别或自动驾驶汽车中的物体识别重要。人工智能带来的是根据特定应用的需要拨入这些结果的能力。

对于人工智能来说,起点不在于硬件和软件,而在于数据的质量、数量和移动。这需要以不同的方式看待设计,包括过去通常没有合作过的团队之间的合作。

“计算真的很便宜,压缩/解压缩数据也很便宜,但在内存中存储和加载数据却不便宜,”研究人员Jem Davies说手臂的家伙。“要构建这些系统,你需要特定领域的专家、机器学习专家以及优化和性能专家。这三个领域你都需要。”

他指出,机器学习可以影响系统中的一切,其中很多是隐藏的。“有些是用户看不到的,”戴维斯说。“它被用于提高电池寿命。相机内部也有机器学习功能。”

人工智能最适合神经形态方法和不同的记忆架构,其中数据可以作为矩阵处理。要使它以最佳方式工作,需要在处理器之外进行架构设计。它需要将大量数据来回传输到内存,并且需要更改内存,以便可以从左到右和上下写入和读取数据。

“很多架构上的改进是软件和硬件的结合,能够更好地处理软件,”音频和语音IP的产品营销总监Gerard Andrews说节奏.“这并不一定会提高单个处理器的整体性能,但它确实增加了功率和内存效率。如果你能做得更小一点,你就能把内存大小减少一半。”

实际上,从软件方面来说,这样可以提高设计的密度,加快数据进出内存的速度。安德鲁斯说:“我们看到的问题是,内存不能有效地缩小,单词识别错误率正在上升。”“我们都在探索算法的稀疏性,以降低功耗并提高性能。”

这只是改变的冰山一角,而且这些改变正在迅速发生。

“在内存子系统中发生的是一个不连续和突然的变化,”的系统架构师Kent Orthner说Achronix.“这一切都是关于延迟和带宽,以及如何满足芯片外和芯片上的野兽。由于需要大量的数据管道,因此正在开发许多关于如何移动数据的体系结构。在此之前,它是关于你可以增加多少内存和你可以在多深的内存。现在,它是通往相对较浅的内存使用的巨大管道。”

正在探索的减少数据流的新方法之一是尖峰神经网络。因此,它们不是持续发射信号,而是像人脑中的信号一样激增。

BrainChip负责营销和业务开发的高级副总裁鲍勃·比奇勒(Bob Beachler)说:“spike神经网络是下一代神经网络。“卷积使用线性代数。使用峰值,数据以峰值的形式输入。你可以通过尖刺来训练,如果有很多尖刺,你可以强化其中一些或抑制它。对于专门用于训练阈值的比特,你可以用非常低的权重值来做到这一点。”

总的来说,估计有70家人工智能初创公司正在研究各种方法或方法的一部分。除此之外,几乎所有主要的芯片制造商、IP供应商和工具公司都在人工智能的某些方面有所作为。

人工智能风险和混乱
但人工智能也存在一定程度的风险,这取决于应用程序和精度水平。在过去,电子系统的设计一直是基于逻辑的完全可预测性,其中大部分都是硬连接的。人工智能用可接受行为的分布取代了计算精度,在会议上有很多关于这对设计签名意味着什么的讨论。目前尚不清楚现有的工具或方法是否能提供相同程度的信心,以确定设备是否属于这种分布,特别是在系统受损或退化的情况下,以及多快能检测到任何异常行为。

对于如何应用人工智能,人们也存在一定程度的困惑。有些芯片是专门为人工智能设计的,有些芯片是用于人工智能的,但不是专门为此目的开发的,在这两种芯片上进行修改和叠加,以更有效地利用人工智能。

总的来说,这属于人工智能的范畴,它是在整个行业竞相提高性能的背景下,以相同或更低的功率。与摩尔定律在16/14nm之后,每个节点的功率和性能提升下降到20%,每个人都在寻找新的方法来取代或补充这些好处。在多个方面都有大量的选择。

对于以AI训练或推理为目标的芯片,或者利用AI功能的芯片中的处理器和加速器,普遍的共识是,使用不同的芯片架构可以实现几个数量级的性能。但它并不是对所有事情都适用,还有一些变量,比如训练数据的大小和值,可能会让AI在某些应用中变得无用。在其他情况下,性能提高100倍被认为是保守的。

这就是为什么要花这么长时间才能将这些新架构推向市场。有大量的架构探索和实验正在进行中,因为芯片行业开始记录什么是最好的,在哪里以及为什么。

英特尔战略营销经理罗恩•洛曼(Ron Lowman)表示:“应用程序和算法存在挑战,带有处理器和内存的芯片也存在挑战。Synopsys对此.“这使得探索在AI架构中变得更加重要,这是原因之一CCIX(加速器的缓存相干互连)正变得如此流行。越来越多的客户正在关注架构的探索。每个人都在试图建立新的架构来模仿大脑。”

这不仅仅是更好的路由和楼层规划。有新的非易失性内存正在开发的技术。还有一种趋势是把更小的处理器放在更小的内存旁边,有时还会与各种针对不同数据类型定制的新型加速器捆绑在一起。除此之外,还有围绕数据压缩和量化的巨大努力。

“从32位浮点到8位浮点的工作正在进行中,”Lowman说。“现在的问题是,你能否实现单比特量化。”

量化涉及到将一大组输入值映射到一组较小的输出值,最大的问题是可接受的精度损失是多少。有足够的传感器或者数据输入,理论上错误率的影响可以最小化,但这在很大程度上取决于应用程序。

另一种方法涉及到源同步,尤其是数据中心的AI芯片,这促使芯片上的网络拓扑发生变化。与使用广播不同,网络中的所有目标都接收相同的数据,使用多播方法可以更有针对性地获取数据。

“有了多播,你可以一次写到多个目的地,”at的营销副总裁库尔特·舒勒说Arteris IP.“它通常用于举重。这样做的好处是可以更好地利用芯片带宽上的可用网络。所以基本上你在路上行驶的汽车减少了。”

人工智能芯片的一个问题是它们往往非常大。“最大的问题是时钟树,”舒勒说。“这需要同步通信,因为如果你异步处理通信,就会占用大量空间。另外,在大型芯片上更有可能出现路由拥塞。解决这个问题的方法是创建虚拟通道链接,减少连接的数量,并通过一组连接共享通信。这需要仲裁来匹配数据流。”


图1:芯片上的端口映射。来源:Arteris IP

为过时做计划
这是设计的一部分。另一个方面涉及到与算法保持同步的能力,算法正在定期更新,这将影响到在利用人工智能的芯片中添加何种处理器。这些都对芯片内数据的移动以及用于这些数据的处理器类型有影响。

cpu和gpu提供了一些可编程性,主要是通过软件。dsp和fpga在固件/硬件上提供可编程性。嵌入式fpga将可编程性直接添加到SoC或多芯片包中。

处理器类型的选择也取决于终端市场应用程序。例如,对于汽车或工业环境中的安全关键应用,人们期望技术能够保持最新的速度和响应能力,以与道路上的其他车辆或工厂中的其他设备兼容。

“当我们讨论面向未来的问题时,并不是它是否可行的问题,”卡洛斯Macián说,该公司的高级创新总监eSilicon.“TPU(张量处理单元)是一个开拓者,它表明可以实现数量级的性能改进。但对于新的工作负载,如果ASIC没有优化,您可能只能获得3倍的改进。”

这是假设数据是干净和有用的。这就是事情变得非常复杂的地方。

Macián表示:“人工智能在非结构化数据集上表现良好。”“如果你给出现在Facebook上的人贴上标签,你就知道这非常适合人工智能。但这不是有组织或结构化的数据。所以人工智能本质上是不准确的,有时它是错误的。”

并不是所有的东西都需要经得起未来考验。在手机等一些市场,消费者希望每隔几年就更换一次设备。在其他国家,电子设备有望在长达20年的时间里保持完整的功能。

提高数据质量是有帮助的,这有助于解释为什么算法变化如此之快,以及为什么现场可升级性对某些设备来说是必不可少的。但是这些变化也会对性能产生影响,如果不向硬件中添加一些可编程性,就无法解释这些变化。问题是可编程性有多大,因为可编程逻辑比调优到软件的硬件要慢得多。

结论
与半导体的许多其他增长市场不同,人工智能是一项横向技术。它可以应用于各种垂直市场,并可用于为这些市场开发芯片。它还可以用来提高现有芯片的效率。

这只是人工智能革命的开始,其影响已经非常巨大。随着设计团队越来越精通这项技术,它将对他们如何设计芯片,以及这些芯片如何与其他芯片交互产生重大影响,它将为工具、硬件、软件开发人员创造新的机会,甚至可能创造全新的市场。

有关的故事
主流芯片架构的巨大变化
随着设备规模效益的下降,支持人工智能的系统正在被设计成在本地处理更多数据。
AI架构必须改变
在人工智能应用程序中使用冯·诺依曼架构是低效的。什么将取代它?
优秀AI加速器应具备哪些要素
优化处理器架构需要对数据流、延迟、功耗和性能有更广泛的理解。



1评论

ramanji reddy 说:

哪个供应商将有高内存和处理要求?

留下回复


(注:此名称将公开显示)

Baidu