处理器权衡对于人工智能工作负载

技术进步和需求之间的差距正在扩大,关闭它们正变得越来越困难。

受欢迎程度

AI迫使芯片用于数据中心和发生根本性转变的工具用于设计,但也创造的速度差距,技术进步和客户的要求。

这些变化逐渐开始,但他们加速和增加在过去一年中推出ChatGPT和其他大型语言模型。突然有更多的数据,它需要处理更快,少用权力,挤在有限的空间和更多的功能。

更糟的是,因为这是新技术,它也几乎连续变化的状态。反过来,创造一系列艰难的权衡,看似相互矛盾。例如,芯片需要内置的灵活性考虑这些变化,但与此相关的性能和能源效率通常ASIC。这些设计也需要紧密集成软件,但足够的灵活性来衡量和应对能力和性能影响的变化造成的算法。所有这些需要在设计周期的早期发生。

“如果你回去在数据中心的硬件方面,英特尔可能看过这个即将到来的十年前当他们买了阿尔特拉,”亚历山大·韦克菲尔德说,应用程序工程学家Synopsys对此。“他们的想法是,我们可以把一个FPGA织物在x86处理器,它将改变世界。他们付出了很多钱为阿尔特拉,吸收到公司,然后没有主要产品出现了。FPGA是正确的块吗?也许不是。很好如果你可以带什么东西,综合成某种硬件逻辑,并把它在一个FPGA。这就像一个人工智能,它是一个加速器。但这是正确的加速器吗?也许不是。英伟达答对了,股票价格已经表明。 Customers want to take a workload that’s software-based and pull it onto a piece of hardware that has thousands of small processing units on the GPU, and they need to do very complex tasks that are GPU-ready.”

生成人工智能革命开始于2017年的出版的论文“关注你所需要的,”Arif汗,高级产品营销作为PCIe组主任,CXL和接口IP节奏。“这篇论文描述了变压器的基础模型,形成大型语言模型(LLM)实现驱动的应用程序(如ChatGPT DALL-E,使AI今天一个家喻户晓的词。ChatGPT采用更快的比任何其他应用程序到目前为止,已经达到1亿用户在两个月内推出。训练模型使用数千亿参数允许推论,当用户查询这些系统。

AI /毫升设计培训、推理、数据挖掘和图表分析有不同的需求。汗说,“例如,soc的训练需要专门的架构与tpu / gpu或自定义设计,可以执行向量操作和共享重量在训练。设计针对推理必须应对大量的查询和需要更高的网络接口。”

芯片数据中心已经推动的物理尺寸的限制。这些芯片超过分划板的大小和缝合。渐渐地,这种方法正在被向上推到Z维度。

“像AMD公司非常阶段构建3 d-ic设计,集成在垂直尺度,“Preeti Gupta说,对半导体产品的产品管理主管有限元分析软件。“你把半导体死在对方之上,而不仅仅是相邻的二维布局我们过去所做的。这是为了满足PPA目标同时保持降低成本。”

但这影响芯片是如何设计,它需要不同的工具、方法和流程自动化设计过程。布局需要考虑温度效应和噪声,以及不同材料和结构的行为。所有这些增加了需要处理的数据量,管理,存储在设计阶段。例如,如何做设计团队分配要处理所有的数据在不同计算元素,然后重组时确保结果准确吗?以及如何做可以更早些时候流,如理解算法变化对硬件性能的影响和权力使用真正的工作负载?

“人工智能/毫升设计师想要优化算法在设计流程的早期,“古普塔说。“他们还想做这个非常迅速——在一天之内有多个迭代。显然,当你设计你的RTL,你合成一个网表,现在你想改变是一个长期循环的算法——设计团队可以获得至少10倍生产率在RTL如果他们做这些优化。此外,这些AI /毫升团队想指导设计决策使用真正的应用程序工作负载。我们发现,这些公司现在使用快速早期权力分析技术找出一个真正的应用程序工作负载,如果他们改变了人工智能算法,如何峰值功率或di / dt事件改变。想象的力量能够生成一个每循环功率波形在数十亿周期一天多次人工智能算法的优化。他们使用这些快速分析方法优化人工智能算法的力量。”

除此之外,设计的方方面面的时间需要同步实现的性能和能力的目标,和功能很有用。“从设计师的角度来看,时间一直都是非常重要的在任何类型的芯片设计,”马哈茂德Ullah说,主要产品应用工程师西门子数字行业软件。“但是在最近一段时间,我们已经看到,它不仅只是时机。权力也是一个问题。在这种背景下,对很多设计师正在设计数据中心芯片,以及芯片不同的区域,包括cpu、gpu,物联网,权力是一个主要问题。专门为工程团队创建数据中心和芯片,他们想测量功率的设计周期,因为权力是今天的关键因素之一。”

简单地说,更多的数据被左移,它创建一个洪水在前端的设计周期。

“最主要的是如何准确地预测能力,“Ullah说,“在SoC层面,这些都是巨大的设计,它可以有近十亿门。主要目的是了解准确可以预测能力。为了做到这一点,你可以测量它的唯一方法就是通过运行仿真工具,因为这将让你看看应用程序将运行结束。可能存在情况下,设计一种新型的软件,当你开始运行,软件突然你看到芯片不工作。为了避免这种情况,它将有助于运行真正的应用程序为您的设计在非常早期的阶段。在数据中心的设计,SoC-level权力使用评估。从那里工程团队运行大的设计与实际应用,和真正的刺激。然后,他们隔离电源相关问题在早期阶段,然后解决这些事情,做进一步优化。”

节奏的汗还指出功耗问题。“训练模型非常密集,和维护这些模型推理继续消耗功率在一个正在进行的基础上。新架构培训是基于专业架构优化向量操作和数据移动位置,有越来越多的公司在这个领域工作。我们看到的设计决策的影响像选择记忆:HBM与GDDR与LPDDR;chiplet-based分区的兴起和戏剧性需求UCIe chiplet连接界面;和增加CXL支持新的内存架构的部署。”

简单多了,现在回想起来,推出之前生成的人工智能。的不确定性,需要处理的数据量激增。有更多的选项来考虑,所有这一切需要做可靠和快速。但是最好的方法是什么,如何得到构架和分区的权力是可控的,性能是充分的,全功能,它可以运行没有过热?

Synopsys对此的韦克菲尔德质疑一个处理器芯片和一个人工智能芯片需要集成在同一块硅或在同一衬底。“他们需要被放置在相同的飞机吗?肯定。它已经发生了。电力需求增加,意味着这些模型的规模持续增长?是的。如果你看看NVIDIA的成本能够得到他们的一个人工智能芯片,它很重要。他们的标价是30000美元到40000美元一块硅。这个问题的部分原因是当你看这些东西的权力规范,最新的NVIDIA gpu使用450 - 500瓦的电力。你怎么保持这个东西很酷? How do you prevent the silicon from melting? How do you do it efficiently if you reduce the power needs for certain applications? That’s going to become a real problem later. Right now, it uses a lot of power, and people are prepared to eat the cost. But when AI gets more prevalent in lots of different things, you don’t want to spend 500 watts on that item plus the cooling cost. So maybe it’s a kilowatt for some particular task. In your vehicle, you don’t want a kilowatt of power going to the self-driving system. You want the kilowatt of power driving the wheels. The AI architectures will get better. They will get more refined, they’ll become more custom. Different companies are announcing different AI projects within them, and there are companies selling AI as IPs.”

所需的计算能力将生成AI本身基本上是一个转折点。

“一旦你建立一个人工智能芯片,里面有1000个人工智能核心,客户希望在他们的下一个2000年或4000年核心设计,“韦克菲尔德说。“一个接一个,会有更多。然后我们会3 d-ics,你将能够构建这些小块,它们堆在一起,创建成堆的这些东西都是连接在一起的。英特尔的旧桥,(现在叫英特尔数据中心系列GPU Max)和信用卡一样大,30块缝在一起。实现正确的产量,对于正确的测试,每一个个体瓷砖可能是不同的技术节点,而且他们可能衍生的某些片段,然后缝在一起来创建一个产品。我们将会看到更多的到来,。”

移动和数据管理
驾驶的许多这些变化是人工智能,机器学习,深入学习,生成人工智能或其他变体。但不断增长的系统需求正迅速超过设计这些系统的能力,创建空白在每个水平和推动更快地采用新技术比过去的任何时候。

“如果我们看看所有的技术扩展趋势,以记忆为例,DDR内存的性能每五年翻一番,“指出史蒂文哇,研究员、著名的发明家Rambus。“但对于HBM,更快。每两到三年速度HBM双打。一般来说,核心的处理器数量会每隔几年就翻倍。虽然这可能会慢下来,这是历史的趋势。然后我们看人工智能——特别是在培训方面,每几个月翻一番的需求。所以,我们开始意识到在这一点上,“哇,没有什么我能做的仅在硅的跟上这种趋势。每个人都那么说,嗯,很好,如果我不能在一块硅,我要做很多的硅。然后我要越来越多的硅链在一起。”

在理论上是有道理的。问题是划分任务之间的所有这些处理引擎和最后结果添加在一起。

“每个人的工作量并为每个(引擎)加下去,和沟通我们要做上升因为(引擎)交谈,”吴表示。“这一直都是这样交流是非常昂贵的。今天,如果你看看计算速度的比值是沟通,在一些场景下,计算看起来几乎是免费的。沟通就是你真正的瓶颈。所以有一些限制你可以走多远多少你会分解问题,部分原因是你想要的引擎有事情要做。但是你也不想做太多的沟通,它成为瓶颈。”

这只是问题的一个方面,也是。这些问题随处可见。

”在某些类型的市场情况是,人们愿意说,“这是一个非常重要的问题,我要设计一种特殊的通信网络来解决这一切,”他说。“我们看到这在人工智能领域,像NVIDIA公司有所谓NVLink以迅雷不及掩耳之势,这是他们的通信机制。其他公司有其他的方法。谷歌TPU拥有自己的网络。现在有很多感兴趣的在光学通信,因为有很多兴趣看到硅光子学技术成熟。感觉一旦减少沟通问题的影响,计算引擎再次成为一件大事。这都是关于‘我怎么看这个,确保沟通不是大瓶颈?的一种思考交流是这几乎是必要之恶,我们必须做些什么来分手的问题。但就其本身而言,通信数据从一个节点到另一个并不预先计算。它只是一个必要的邪恶继续计算。”

棘手权衡
有很多移动块平衡所有的PPA芯片需求在一个数据中心,和改进或更改任何一个经常影响至少一个其他的两个条件。

”在软件方面,客户构建一个AI加速器,结合硬件销售,硅,和一些图书馆或驱动程序或软件层,他们出售,“韦克菲尔德。“这是这两个东西一起的总性能最终客户的关心。如果你的软件是非常糟糕的,你的人工智能的编译器是坏的,它利用硬件严重。你就会失去客户,因为你不会站起来反对竞争,这可能不如硬件但更好的软件栈。”

这更重视前期探索。“你可以去一个云提供商和租一个NVIDIA GPU或A100芯片和运行您的工作负载,“韦克菲尔德指出。“他们会收你这么多每分钟运行它。他们喜欢从NVIDIA购买这些芯片30000美元还是40000美元?每人?可能不会。他们会建立自己的吗?可能。我们看到,在亚马逊。在AWS,你可以租引力子空间,这是亚马逊的版本的一个核心。 It’s their own core, not Intel or AMD, so you’ll probably see the same sort of thing happening in the data center for various workloads, where maybe there’s custom silicon that’s a little more power/performance-wise optimal for a certain thing, or it’s some mix of regular processor and AI chip together in the same 3D-IC. Maybe that makes more sense. Then for certain custom applications, you’ll definitely see a custom ASIC that has the right combination of hardware that you need with the right power profile and performance profile for certain embedded-type applications, such as self-driving cars, security cameras, even your Ring doorbell that runs for two years off a battery.”

最大的一个权衡在这个空间内存带宽之间的权衡,能力,和成本。

“这是一个经典的带宽之间的选择两个,容量和成本,有时它是一个选一个,”马克·格林伯格所指出的,产品营销组主任DDR, HBM, flash /存储在节奏和MIPI IP。“一个低能的用户可能会选择一个一排DDR5无缓冲的DIMM (UDIMM)最敏感的应用程序。达到更高的容量,dual-rank UDIMM可以用来记忆容量的两倍——为代价较高加载在DRAM总线上可以减缓DRAM巴士,但没有其他重要费用以外的额外内存使用。”

数据中心用户经常选择注册DIMM,允许最大容量的进一步增加,支持更多的DRAM每DIMM死去,但额外的代价都添加了额外的内存以及注册时钟驱动(RCD)芯片,是每个DIMM引入。”更多的能力,第二个DIMM套接字通道可以添加,这为代价的进一步加载和退化的DRAM总线信号的完整性,又会影响带宽/速度,”格林伯格说。

除此之外,高容量容量可能会进一步双或四倍容量的3 d堆叠DRAM设备——加载几乎没有影响,但可能会增加大量成本与3 d堆叠。“和添加更多的能力,一个CPU制造商可能增加额外的DIMM通道并行,双打的带宽和容量,但也提高了硅面积和包针与DRAM在CPU上。这是一个开放的区域创新,有令人兴奋的发展能力和带宽都添加到DRAM总线讨论,“他补充说。

在未来构建芯片
韦克菲尔德认为,我们会看到更多这样的发生在人工智能空间。“目前仍是有点淘金热的阶段,人们需要尽可能快的芯片。如果今天它使用一些额外的权力,不管那么多。人支付一大笔钱为人工智能芯片。他们消耗的能量是一个因素,但并不是大的问题。随着这个行业的成熟一点,然后你会看到部分的力量变得更加的一个因素。你如何阻止这些东西融化?如果你可以让它的两倍,你会,但现在它是一个千瓦和一个千瓦融化硅。”

这增加了成本。管理能力和整体热足迹是很重要的。它也是昂贵的使它正确,更糟的是把它错了。

“我们担心热失控,有能力看真正的应用程序工作负载,能够帮助设计师使这些架构决策,“Ansys古普塔说。“假设你有AMD GPU用于数据中心,它有不同的热传感器。你在看一个热传感器和观察其温度。我们知道GPU性能是有限的权力,但是这是什么意思?这意味着随着GPU正在运行,也许孩子是运行在GPU上游戏应用程序,例如,温度上升的死亡。一旦热传感器检测到阈值,假设是100°C -需要逻辑来减少这个过程的频率。,因为它有冷却芯片为了功能,不会导致热失控的问题,目前的频率下降用户不到最佳的体验。他们能运行游戏,只是慢。所以,所有这些企业都非常关注真正理解这些用例早期和能够动态调整电压和频率设计迎合这些,并将热传感器在正确的位置。如果你有一个billion-instance数据中心芯片,你不可能有十亿个热传感器。 So where do you place those thermal sensors? And which are the thermal or power hotspots within the design?”



留下一个回复


(注意:这个名字会显示公开)

Baidu