中文 英语

新AI处理器架构面临的挑战

在数据中心获得一个人工智能席位正在吸引大量投资,但也存在巨大的逆风。

受欢迎程度

投资资金正大量涌入为数据中心开发新的人工智能处理器,但这里的问题是独特的,结果是不可预测的,竞争对手财力雄厚,产品非常有粘性。

最大的问题可能是有关终端市场的数据不足。在设计一个新的AI处理器时,每个设计团队都必须回答一个基本问题——产品需要多大的灵活性?是针对单个任务进行优化,还是针对更一般的工作负载进行优化?在这两个端点之间存在一个连续的解决方案,在AI硬件上获得正确的解决方案比过去的许多解决方案空间更困难,特别是对于数据中心的工作负载。

许多因素需要平衡。“归根结底,这是为了能够围绕设计和制造设备的能力推动经济增长,”微软人工智能产品和研究主管斯泰利奥斯•迪亚曼提迪斯(Stelios Diamantidis)表示Synopsys对此.“这必须在你可用的时间和成本因素内完成。”

这立即开始缩小潜在市场。“你什么时候能从定制芯片上赚钱?Synopsys验证组的工程副总裁Susheel Tadikonda说。“如果我试图为数据中心构建一个定制芯片,有多少个数据中心?你可以高价出售芯片,但这还不够。如果我要为消费设备制造一个芯片,我们谈论的可能是数十亿台设备。体积在这里。这就是你会看到这些专用集成电路赚到更多钱的地方,因为它们肯定需要数量。否则根本就没有意义。”

但这并没有解决芯片在定制到完全可编程连续体中的位置问题。“随着你越来越个性化,当你为一个非常特定的算法创建一个芯片时,它将更节能,也会有更好的性能,”安诺普·萨哈(Anoop Saha)说西门子EDA.“但你牺牲了音量。它还缩短了芯片的寿命。如果两年后你有了一个新的算法,这个芯片还像以前一样有价值吗?这是很多事情的相互作用。一些边缘算法确实趋于稳定。业界经过几年的研究,找到了一个最优算法,这个最优算法适用于很多情况。我们已经看到美国有线电视新闻网(卷积神经网络),我们已经看到,对于唤醒词检测,手写识别,你需要为特定的用例找到一个最佳算法。”

定义工作负载
自定义始于对工作负载的准确理解,这为某些玩家提供了优势。“大多数超大规模的公司已经组建了自己的芯片部门,他们正在为自己的数据中心的高覆盖率工作负载开发芯片,”华为人工智能和软件产品营销总监尼克•尼(Nick Ni)表示赛灵思公司.“例如,如果谷歌认为这种‘推荐’类型的神经网络是数据中心中最高的工作负载之一,那么他们为其创建专用芯片和卡是有意义的。如果第二大工作量是语音识别,那么这样做是有意义的。如果第三个是视频转码到YouTube,他们就会这么做。机会很多,但不是每个人都能做到。几年前,谷歌发表了一篇广受欢迎的论文,他们展示了他们数据中心工作负载的多样性,而且非常多样化。没有一个单一的工作量占比超过10%。这意味着有大量的长尾工作负载需要优化。”

大多数定制是为了推理。Synopsys的Diamantidis说:“当涉及到训练时,你需要浮点支持。“他们需要权重的反向传播和围绕它的大型软件环境。但如果你考虑一个100%应用于推理的解决方案,它有固定的点,可能是8位或更低的精度。关注点是不同的。如果模型是固定的,那么在推理基础设施本身中实际具有风味是否有意义,例如,对于一些重量级应用程序,这意味着针对语音的某种定制解决方案,针对视频处理的某种定制解决方案?超级规模企业正在投资于推理的硅解决方案,这些解决方案更适合他们在人工智能领域的高级模型和解决方案。但当你试图运行大量不同类型的应用程序时,可能就更需要可配置性和灵活性。”

这是一个良性循环。“TPU是为了满足谷歌数据中心内的特定工作负载而构建的,”Synopsys的塔迪康达说。“最初创建它是因为他们意识到,如果他们必须处理这么多数据,他们就需要建立这么多数据中心来处理数据的复杂性和计算量。这就是经济法则让他们建造TPU的地方。第一个TPU是个大块头。它非常耗电,而且很大。但他们改进了它。他们学了又学。他们可以这么做,因为这是他们的工作。这就是谷歌。”

并不是每个公司都有谷歌的反馈系统,但其他公司确实有选择。西门子的Saha表示:“我们看到的一个关键组成部分是关注和强调在早期获得正确的架构选择。“这与某人认为什么是正确的无关。这不是基于过去的表现做出直觉的决定,因为现在有太多的未知。这个行业所做的是在设计周期的早期做出数据驱动的决策,这样你就有能力在发现一些不合适的东西时迅速做出改变。”

这些决定可以是宏观层面的,也可以是更详细的。“内存元素与计算元素的距离有多近?萨哈问道。“你多久取一次内存,因为读写将对整体能源效率产生直接影响。这个行业正在寻找新的架构,所以没有人确切知道什么会起作用。你需要有可塑性,但你需要确保在他们做出决定之前你有足够的数据。”

硬件和算法的混乱
影响你在连续体上的位置的另一个因素是硬件需要发展的速度和算法发展的速度。这决定了数据中心所有者从他们购买的硬件中赚钱的时间,并确定了他们愿意支付的价格。它还限制了芯片开发的总成本。

数据中心中芯片的生命周期是多少?Xilinx的Ni表示:“通常情况下,一块芯片或电路板可以使用三到四年。“一些更激进的数据中心可能会在这个时间段内升级,一些可能会升级更长的时间。对于人工智能,我们可以关注谷歌TPU公告。在过去六年左右的时间里,他们已经有了四个版本的TPU。所以每隔一两年,他们就会更换内部硬件,以优化人工智能等快速变化的工作负载。”

换个角度看,可能每18个月就有一次进入数据中心的机会。萨哈说:“要颠覆这个市场并不容易。“这有两个部分——他们多久更换一次现有的数据中心芯片,多久添加一次新东西。我看到几乎所有的数据中心都在尝试更新的东西。几乎每个构建数据中心芯片的人都在与某个合作伙伴或某个终端客户合作。他们多久更换一次现有的东西,或者正在工作的东西?只要芯片还在工作,他们就会尽量延长芯片的寿命。一旦你进入了数据中心,这是一个漫长的决定,很难被取代。这就是为什么你会看到这么多投资在这些大型数据中心芯片上。投资界的某些部分认为,这将是赢家通吃的市场,或者将有一个、两个或三个赢家攫取最大的份额。 Once they get in, it will be very hard to replace them.”

为未来设计
你今天开始设计的东西必须在18个月内满足需求。Xilinx的Ni说:“当我们决定在芯片内部加固块时,我们还必须优化一定的精度。“例如,我们在整数8附近做了一些选择。我们不得不打赌,当这个产品成为主流时,8位仍然是主流。我们还确保我们可以处理混合精度网络,其中一半是8位,另外四分之一是4位,另外四分之一是1位。为此,我们在AI引擎中实现了8位部分,它运行基本性能非常快,然后你可以在FPGA结构中实现4位和1位MAC单元。”

设计时间和算法进化是相同量级的。Tadikonda警告说:“18个月后,应用可能会完全不同。”“我不认为今天的数据科学家能够向任何人保证,他们在18个月内运行的模型将与今天相同。”

有很多决定要做。萨哈说:“量化可能是许多能源效率指标中最大的单一因素。”“量化将对推理方面产生更大的影响,推理分散在数据中心和边缘之间,但在学习方面也有量化的一面。当你量化到较低的比特数时,这意味着你在用能源效率而不是准确性进行交易。它更有效率,但没有那么准确。在训练中,你可能需要浮点数,但是有一些新的浮点数类型。当谷歌设计下一代TPU时,他们创建了bfloat16,这是用于训练的“大脑浮点数”。它与IEEE浮点数有很大不同,它在精度上具有浮点数的优点,但在能效方面也有显著的优势。”

这可能会给经济带来困难。塔迪康达表示:“对于一个如此规模、如此巨大的努力和如此迅速的变化,只有少数公司能够证明其经济效益是合理的。”“算法正在发生变化,因为这些数据的用例正在增加。你今天认为有效的东西明天就不是有效的了。为了赶上并走在前沿,你必须不断创新或重新发明这些asic。谷歌有一个优势。他们之所以能够如此快速地流失,是因为他们拥有如此多的数据。他们从tpu那里学到了很多东西,他们知道需要改变什么才能让他们的应用程序更好地运行。如果我是第三方硅开发人员,我没有这些数据。我必须依靠我的客户来提供,这样周转周期就会更长。 Google is in a very unique situation.”

这也给核查带来了压力。“对浮点硬件的验证对于满足这些芯片的性能和功耗要求是至关重要的。OneSpin.长期以来,浮点硬件设计的验证一直被认为是一个重大挑战。fpu结合了浮点运算的数学复杂性和各种需要复杂控制路径的特殊情况。我们需要的是一个正式的验证解决方案,以验证由硬件浮点单元(FPU)计算的算术运算结果准确地符合IEEE 754标准规范。”

结论
人们常说,数据是新的石油,而人工智能就是一个这种联系变得越来越明显的领域。建筑师只能想象这么多。他们需要获取数据,以帮助他们改进或构建更好的产品。这就是数据中心处理器如此具有粘性的原因。一旦你在那里,你就可以访问你在那里所需的数据。

唯一的其他方法是加快设计过程,这样经济就会发生变化。具有讽刺意味的是,人工智能是唯一显示出这种生产力飞跃潜力的颠覆者。

相关的
AI的架构考虑
如何才能成功地使用定制芯片处理以数据中心或边缘为目标的神经网络?很多钱都在寻找这个答案。
系统设计将发生翻天覆地的变化
随着应用程序日益多样化,对更快处理的需求促使计算模型变得非常不同。
数据中心数据过载
哪些体系结构和接口最适合不同的应用程序。
AI设计的巨大变化
为什么为边缘应用开发AI变得越来越容易,以及AI将如何在边缘和云之间进行划分。



留下回复


(注:此名称将公开显示)

Baidu