中文 英语

处理热在Near-Memory计算架构

缩短数据处理器和内存之间的路径可以帮助,但并非总是如此。

受欢迎程度

数据的激增迫使芯片制造商获得更细粒度的逻辑和内存被放置在一个死,如何分区的数据和优先利用这些资源,和热的影响将如果他们靠近死亡或在一个包中。

超过十年,该行业面临一个基本问题——移动数据可以比实际计算数据资源密集型的。有几个关键变量,需要考虑:

  • 更高的数据量和更长的内存和处理器之间的距离往往导致较低的性能和更多的热量;
  • 片上,于温度变化基于多少处理元素,和频率数据需要处理器和内存之间来回移动,和
  • 钢丝直径和不同的材料可以加速或减缓运动的数据。

在大多数情况下,缩短距离处理和记忆之间可能会对性能产生重大影响和热量。不过,这一切都是免费的。

洛曼说:“这两个携手并进,罗恩,物联网战略营销经理Synopsys对此。“人们看的原因内存计算正是出于这些原因。不过,每个人都意识到,他们将不得不液体冷却这些AI加速器的数据中心。从热的角度来看,那里是一个很大的成本。但是也有巨大的电能节约内存计算。整个想法是业内普遍,因为这取决于您所使用的算法和处理,你使用AI,超过20%的预算可以访问内存,这影响功耗以及总成本实现。”

设计团队需要考虑的问题是他们试图优化为一个特定的应用程序或用例。举个例子,一个人工智能系统的需求是非常不同的一个系统,包含了一些人工智能的功能。在智能手机的不同,反应时间的几毫秒可能是可以接受的,比在一个自治车辆等安全性至关重要的应用程序或导弹制导系统,实时响应是至关重要的。

“如果你做任何计算存储设备,它会导致一些加热,所以你必须得到正确的平衡,”史蒂文说哇,研究员、著名的发明家Rambus。“但人吸引。今天在一个CPU,硅区域的总金额在所有的DRAM芯片的面积远远大于一个CPU。所以你诱惑,因为你有那么多区域要做这一切。但是这个东西你认为你可以利用实际上变得困难,因为气流是出了名的困难或附近的记忆。”

简单来说,处理器和内存之间的距离减少涉及一系列的权衡,可以高度特定领域和权衡。“我看near-memory计算距离你可以得到传统逻辑和记忆过程技术结合,”Steve Pawlowski说先进的计算解决方案的副总裁微米。“最接近你拍在一起,混合债券。针是昂贵的,所以如果你可以得到near-memory计算哪里有一块硅与记忆上,您可以利用的宽度之间的数据移动内存和减少内存和逻辑非常高带宽和低效率。”

但是总成本芯片,或者一个系统,需要完全理解。“如果我必须规范化内存访问和计算之间的电力消耗,我知道这是数量级的获得数据来计算元素高于实际的计算操作本身,”拉梅什Chettuvetty说,高级主管英飞凌科技。”这意味着,人们必须找到方法来减少数据内存和计算元素之间来回运动。但即使有HBM与HBM或其他接口的架构,他们仍有数百瓦的功率消耗峰值操作,所以它要求冷却技术。”

其他问题
这增加了一个全新的元素布图规划,先进的包它经常涉及到邻近的理解效果和将产生多少热量或噪音这些组件,以及如何将处理用例和其他元素的上下文。

“你不想把数据放在一个角落的死,然后把它完全在另一边的死。那么你燃烧的力量,和电线不规模,”Pawlowski说。“但也有40年的软件在地球上不是写near-memory计算规范。相比之下,与人工智能架构和软件优化了对方。”

即使在系统由地面near-memory计算,理论上应该能够处理所有的这些问题,有挑战。“人工智能芯片需要大量的记忆紧密集成,“Preeti Gupta说,产品管理主管有限元分析软件。”的唯一方法,这些系统可以实现他们的目标是通过整合多个紧密而死,是否2.5 d使用插入器衬底,或3 d,死一样堆在一起。随着3 d,热的问题加剧了因为之间的热量被困死了,不能那样容易逃脱。”

和热设计工程师,结果Jenga-like结构是痛苦的沉思,物理耦合和级联效应。“有很多建模所需了解温度资料,”Gupta说。“能够理解周围的气流系统,您必须能够模型温度的影响,不仅在电力消耗,而且在机械部分。例如,包可能会扭曲。所以,有电,有机械、计算流体动力学。你不能只看机械隔离。您还需要将热机械应力的影响,包括multi-physics。”

新方法
这些问题是工程师和物理学家创造一个待办事项清单。事实上,由于工程团队不断尝试将组件紧密,导致热的问题,架构需要重新考虑吗?

“架构的重新思考是什么让我们near-memory或内存中计算,“Chettuvetty说。“有几个架构技术,已经被部署,像cache-coherent架构。你想分区缓存,这样多核可以共享缓存。这些缓存同步架构,确保数据依赖关系已经照顾。那些目前正在部署架构级变化,在多核环境中。但仍存在瓶颈。”

例如,在人工智能推测,没有办法储存权重的数量上需要一个SoC,可多达8000万,以嵌入式方式,所以连接必须使用内存。

“大多数时候,我们应该有一个非常有效的数据流体系结构在项目使用一个内存控制器,“Chettuvetty说。“如果你依赖传统的传统的整体架构,计算和存储的元素是分开的。在这种情况下,需要大量的内存,这无法实现的嵌入式意味着在这一点上,我们将不得不依赖外部内存。,唯一的选择就是把它尽可能使功放的拖累接口是非常低。这意味着我可以降低线路上的电压。如果我降低电压波动是有限的,然后我消耗更少的电能。我可以降低电容,如果我能降低功率字符串在这些接口,我可以降低功耗。这些都是技术设计团队正在探索在大多数的高速接口。”

叠加的效果
整个行业,有越来越多的集中在前沿堆积死,是否在2.5 d, 3 d,或在扇出柱子。在某些情况下,甚至还有2.5 d和3 d-ics被打包在一起。在所有这些,关键数据路径的目标是缩短距离和提高吞吐量。

“热问题将成为更普遍采用2.5 d和3 d包装,”洛曼说Synopsys对此。“我们看到了一个很大的上升。我们已经介绍了技术,就像高带宽内存。这是非常有利的,因为我们的针在传统的DDR和GDDR增加带宽。HBM提供并行性。所以能够把一堆内存最重要的是已经被证明是非常有益的,我们将继续看到采用增加。虽然昂贵的技术来实现,如果你需要的性能,这就是你要去的地方。人工智能,你必须采用这样的技术。我们也有die-to-die技术,由于人工智能或片上存储器是非常重要的在芯片的记忆。他们已经放弃在DRAM的系统,所以他们所做的是连接芯片的片上存储器,和大量的人工智能计算元素放在一起。 They do that via die-to-die technology to increase performance. While this started with AI, we are seeing it migrate to server chips, as well as on the latest PC architectures. That will continue to expand, but there are thermal issues with 3D packaging. It’s an engineering field that should continue to grow.”

此外,AI /毫升电力需求和随之而来的架构可能迎来更多的思考如何积极酷DIMM模块。“过去,我们看到很多强制空气使用冷却,但水的热容比空气就好多了,”说Rambus吸引。“可能会有更广泛的采用液体冷却,但浸成分是昂贵的,因为他们必须无腐蚀性的。”

不同的模式
的确,热思考延伸不仅从冷却的基本架构,但谁的邀请来创建新方法。

“芯片和系统设计之间的线条模糊,“古普塔说。“这些都不是两个不同的团队了。他们必须一起工作,需要开放的、可扩展的平台。”

例如,IBM Telum 7纳米微处理器集成人工智能功能,提出了界定缓存架构。微处理器包含8个处理器核,以超过5 ghz,每个核心支持的一个重新设计的32 mb私人所二级缓存。2级缓存交互形成一个256 mb的虚拟级别3和2 gb四级缓存。

“人工智能是一个非常计算密集型活动,因此权力集中活动,“说基督教雅可比,在IBM杰出工程师和首席架构师的微处理器。“我们这样做这些系统是通过整合到处理器芯片,我们减少能源成本的人工智能,因为我们可以访问数据已经住在哪里。我不需要数据和移动它,把它转移到另一个设备,通过网络或移动或移动它通过PCI接口附加一个I / O适配器。相反,我有我的本地化AI引擎,我可以访问数据,所以至少我们可以减少开销的数据和计算机。因此,有功率效率来自于能够运行大量的工作负载整合z16和LinuxONE系统与集成人工智能加速器如何帮助那些新工作负载的功率效率组件的背景下传统负载组件。”

根据雅可比,这一成就需要与电源团队密切合作和热的团队开发先进的电源和热解决方案。“我们正在调查和开发新技术来提取芯片产生的热量。我们有一个处理器散热片,用水提取热量,然后与数据中心交换水热。对于未来,我们优化热接口芯片与散热片之间的更有效的冷却能力。”

在考虑其他方案包括互联数据中心之间转移工作负载,根据内部环境,如处理过载和外部环境就像热浪。也有方法,如电力系统管理,关闭或部分所需的芯片,不积极。在智能手机这一策略很明显,显示大国当用户不是看它。

但即使是最均衡的系统很容易受到病毒和随之产生的热应力,雅可比。

结论
虽然near-memory计算减少旅行的距离数据,并可以减少需要发送的数据量更长的距离,这不是唯一的解决方案。在某些情况下,它可能不是最好的解决方案。

面临的挑战是有很多,有可能在一个复杂的交互设计,他们需要考虑整个系统的上下文中。

“如果你看看这个整体系统包括多个组件,然后火与他们的权力和他们每个人检查热传导和遵循物理,这给至少一个一阶近似的生成热,到哪里去,多少温度将会有一个特定的表面,“朗林说,Ansys的主要产品经理。“模拟至少可以估计它以正确的方式。”



留下一个回复


(注意:这个名字会显示公开)

Baidu