中文 英语

使用模型驱动数据中心体系结构更改

世界访问数据的方式正在改变。数据中心正在进化以适应环境。

受欢迎程度

数据中心架构正在发生重大变化,这是由于来自远程位置的更多数据和更大的使用量。

这种转变的一部分涉及到需要将某些处理移到更接近各种内存层次结构的地方静态存储器动态随机存取记忆体存储。有更多的数据需要处理,并且需要更少的精力和时间来处理这些数据。但随着产生和交流的数据越来越多,工作负载也被分散到更远的地方。新冠肺炎疫情加速了这一趋势,人们被要求在家工作和学习,流媒体视频和音乐越来越多。

这种集体影响给数据中心带来了压力,从边缘到云,它促使人们重新思考需要在本地做什么,而不是在边缘或云中做什么。这反过来又影响了如何基于数据的移动、存储和检索来构建数据中心,而不是试图围绕现有的架构来构建数据。它还为获得必要的EDA资源,包括按需获得EDA资源提供了新的机会。

“随着流媒体视频变得越来越流行,我们一直处于生成更多数据的模式中,”微软的DesignWare IP解决方案营销经理斯科特·杜兰特(Scott Durrant)说Synopsys对此.“与此同时,流媒体视频和社交网络的分辨率越来越高,人们在社交网络上分享各种媒体、视频和图片。这推动了生成、交换和共享的数据量的增长。即使在新冠疫情之前,这种活动也推动了对更高数据中心容量、更高网络速度、更高存储容量和性能的需求。随着新冠疫情的到来,这一趋势正在呈指数级增长。”

越来越多的人认为这是一种新常态。但是,即使人们真的回到办公室工作,他们也可能会在家庭和商业办公室之间分配时间。为了维持——甚至提高——远程工作者的生产力,网络资源的响应能力必须至少与办公室里的员工一样好。

“你必须有基础设施,使这些远程工作者能够访问资源,”达兰特说。“在许多情况下,我们已经看到,并将继续看到,云服务在这方面的利用越来越多。出于多种原因,您不希望每个人都访问本地的、现场的、公司类型的数据中心。云提供了巨大的灵活性,因此将继续有更大的迁移到基于云的服务。与此同时,通过各种基础设施节点的网络通信量也在增加,这意味着网络性能必须提高,同时保持或减少网络上的延迟。这推动了对更快网速的需求。”

所有这些都对数据中心架构产生了影响。

“一刀切的计算方法,即工作负载由单一的,遗留的,通用的计算架构驱动,正在变得过时,”哈瓦尔·帕里克观察到,他是at基础设施业务线的细分市场总监手臂.“未来的超大规模数据中心基础设施将变得越来越异构、可定制,并针对其特定的广谱向外扩展工作负载进行微调。”

也就是说,未来的计算体系结构需要支持这些新兴的基础设施需求,具有设计和供应商选择的灵活性,以尽可能好的性能和电源效率,从而实现最低的TCO。

当我们想到超大规模数据中心在美国,人们首先想到的是值得信赖的服务器CPU。节奏.“性能和功耗的节省来自于非常可预测的x86世界对架构的扩展,以及摩尔定律的浪潮。我们还见证了计算处理能力向fpga、gpu以及最近的自定义迁移soc由主要互联网巨头内部设计。随着每一个后续的发展,计算处理器都以一种非常线性和可预测的方式进行改进。超大规模数据中心的其他重要组成部分是有线和无线连接、网络和存储,通过采用最新的以太网和网络标准,以及最新的内存和存储技术,所有这些都将经历自然的改进过程。”

每个组件都在发展,但与此同时,赋予不同组件的价值也在变化。现在,性能还与数据在机架内的服务器之间、机架之间、建筑物之间、校园之间以及最终到互联网上的移动速度有关。

数据中心的叶-脊拓扑结构。来源:节奏

图1:数据中心的叶-脊拓扑结构。来源:节奏

Wong说:“从2015年到2020年,网络交换机主机速度每两年翻一番,从2015年的3.2Tb,到2019年的12.8Tb,到2020/2021年的25.6Tb。”“我们离51.2Tb的部署已经不远了,特别是随着高速技术的进步并行转换器开发出了单车道112G-LR能力。”

此外,模块带宽已从2015年的100G增加到2019年的200/400G,未来两到三年内将出现400G到800G的主要速度部署。这将与光学元件的改进相结合,从2019年开始从28Gbaud光学过渡到56Gbaud光学。所有这些都与NRZ编码向更高调制的PAM4编码的转变相吻合,后者的效率要高得多。

Wong表示:“对商用市场上现有产品的快速调查显示,大多数12.8Tb soc都是用16nm工艺制造的。”“25.6Tb soc从2019年底开始转向7纳米,并于2020年投入量产。第一代芯片使用50G SerDes,因为这是当时可用的最好技术。最近的消息表明,100G SerDes终于到来了,业界预计将从50G SerDes过渡到100G SerDes,以及从7nm迁移到5nm。这样做的好处是非常显著的。考虑25.6Tbps交换机。如果它依赖于50G SerDes,那么您的设备将需要512个通道。但是如果你有一个100G的SerDes,那么车道的数量就会减少到256。想象一下,由于车道数量的减少而减少的模具面积和功耗。这些芯片耗电量很大——大约350W。 At the end of the day, any technology improvement that can maintain the same performance and simultaneously provide power savings will be very much appreciated.”

速度和容量都需要提高以跟上不断增长的数据洪流,但这只是问题的一部分。Synopsys的Durrant说:“你必须能够将这些数据存储在某个地方,因此对增加存储容量的需求将持续存在。”“但一旦你捕捉到了数据,你就必须能够以某种方式处理它。如果您必须一次查看一小部分数据,并在存储和处理之间来回交换信息,那么处理这些庞大的数据集将变得非常昂贵。有了计算存储,如果你能一次性将更多的信息放入内存,然后在更大的数据块之间建立相关性,就能更有效地提供你无法捕捉到的见解。”

计算存储使能源效率在以前被认为是事后才考虑的地方出现。因此,在内存容量不断增加的同时,人们越来越重视更有效地在内存之间移动数据。

“我们看到DDR系统的容量正在增加HBM”杜兰特说。但有一种已经存在了一段时间的英特尔Optane,可能即将真正起飞。通常称为持久内存,它允许增加容量,同时保持相当高性能的水平。此外,还引入了缓存一致性接口技术,支持这些设备的缓存一致性,例如CXL这将有利于数据中心持久内存和计算系统的扩展和广泛采用。”

权衡是一种微妙的平衡
所有这些都需要权衡,这越来越多地涉及到处理速度、各种内存容量以及最小化I/O和减少数据和数据移动的策略的组合。但当数据确实需要移动时,必须以与其他操作同步的速度进行。

“当涉及到数据中心的权衡,这完全取决于带宽需求,”Frank Ferro, IP核产品管理高级总监Rambus解释说。“假设你正在设计一个没有额外电源输入的网卡,并有一个非常明确的75瓦的限制。这将限制你在卡上的处理量。这些卡的带宽是每秒300g以上。我们已经看到HBM和GDDR都有可能保持在这些功率范围内,所以它是相当有限的。这是一个平衡。你必须以300g的速度运行但你不能超过你的功率配置。因此,您可能会在处理器和内存之间使用HBM或GDDR来保持在那个盒子中。但是,当你升级到下一个250瓦的卡片时,你有更多的能量可以使用。根据要解决的问题,可以使用GDDR或HBM。 In the lower-power cards, you may use LP because LPDDR looks potentially like a nice solution, but you’re limited in your bandwidth. The design team wants to know how to make the tradeoffs. ‘I’ve got this bandwidth problem. I need 500 gigabytes per second,’ or, ‘I need 300 gigabytes per second. Give me the best memory solution that’s going to stay in my power profile, that can give me the performance that I want, and can keep my costs from going through the roof.’ That’s the game we play every day.”

Ferro说,如今这主要是通过gpu完成的。“我们看到很多公司推出了新的架构,试图蚕食GPU市场。GPU真的很擅长它的工作。这是一个很好的通用处理器。但是如果我有一个非常特定类型的神经网络,我想要运行,并且有人提出了一个加速器卡,它有一个针对特定网络优化的处理器,我就会使用它。用户并没有聚集在一家公司周围。这实际上取决于它们运行的网络类型,以及特定网络需要什么样的内存和处理器速度要求。这就是为什么有这么多公司在研究这个。每个人都有稍微好一点的小工具来解决这个问题。从短期来看,GPU仍将主导市场。 But accelerator cards with custom ASICs and custom SoCs are starting to slowly make their way into different segments of the market.”

开关结构是另一个权衡的来源。Cadence的Wong表示:“首先,重要的是确保所使用的SerDes IP真正具有所需的性能,并得到硅数据的支持。“根据实际的硅进行评估。询问供应商是否用胶带粘住了设备,是否有硅。是否有一个可以连接到设备上的板,这样你就可以实际看到IP的运行,以验证声明?要求IP供应商验证硅可能是最关键的部分。”

其次,并非所有这些权衡都有先例。“有很多标准,在数据中心,有时互联网巨头有一个专有的内部系统,”Wong说。“他们的服务器与另一个服务器通信,然后另一个服务器与他们自己的数据中心通信。它们控制着两端——发送和接收。出于对更快和更快地移动数据的贪得无厌的渴望,他们可能会选择采用一种新的标准,这种标准可能还没有得到行业组织的批准,但它可能会让他们在竞争中领先三到四年。虽然这可能适用于互联网巨头,但它可能无法与地球上的每一件设备互操作。这几乎就像制造一级方程式赛车和为大众制造汽车一样。我只要赢得大奖赛就行了。如果车坏了,我也没事,因为我赢了比赛。一个现代的数据中心几乎就是这样。 I have more speed, I move more data. I do faster computation, so I’m going to pick the latest and greatest technology, and eventually the industry is going to catch up and ratify that. Hopefully I’m large enough that they will see it my way and adopt my technology as the standard. That’s how the internet giants operate, and rightly so.”

安全问题
这个等式中还有另一个因素。更多的数据、更多的数据移动和更多的组件也会增加网络攻击的价值,它们共同扩大了攻击面。

“随着5G和AI等新兴应用对网络带宽的需求不断增加,数据中心需要更快的性能、更高的密度、低延迟和安全内存,”英飞凌技术有限责任公司首席执行官Sam Geha表示,“对数据中心架构来说,增加用户隐私保护、防止组件伪造和确保基础设施安全变得至关重要。展望未来,数据中心架构将不断发展,以满足对数十亿连接设备日益增长的需求,这将扩大对安全系统的需求。闪存是系统的关键部件,必须保护它不受攻击,因为它提供了对引导代码、安全密钥和其他系统关键数据的访问。”

其他人也同意。“随着数据遍历和存储在云中价值的增加,不当访问和滥用数据的威胁也在增长,”Durrant说。“特别是,远程工作人员数量及其工作环境的增加,扩大了潜在数据窃贼的攻击领域。数据保护对于云计算至关重要。为了向授权用户适当地保护数据的机密性、完整性和可用性,标准组织正在将安全需求纳入数据接口协议。在这些高速接口中实现必要的安全算法需要高质量的加密IP(用于数据加密和解密)、安全协议加速器IP(用于实现高速安全协议)和可信执行环境(用于提供信任根和安全密钥管理)。为了避免在各自的数据路径中产生瓶颈,用于实现这些功能的IP必须能够维持线路速率运行。”

结论
在数据中心中存在多个关注点,但最终最重要的元素是性能。

“你必须有速度,”杜兰特说。“延迟很重要,随着我们看到越来越多的控制系统上线,低延迟的重要性将会增加。想想高速度、低延迟。”

其次是能源效率,这是一个重要的和日益增长的问题。他说:“现在有一个很大的动力,让数据中心实现净零碳足迹,这实际上是一个巨大的挑战,因为它们是今天的电力消耗大户。”“数据中心的每一个元素都将围绕着这一点发挥作用。随着SoC设计人员在数据中心部署各种产品,尤其是服务器产品,因为在典型的超大规模数据中心,服务器产品要增加数万倍,甚至交换基础设施也在增长。每个机架上至少有一个开关,开关里有很多硅。这意味着网络基础设施、计算基础设施和存储正在增长。对于所有这些设备,我们都必须提高它们的能源效率。这是我们至少第二次或第三次看到替代架构的动力的原因之一。”

单独来看,这些变化都很重要。总的来说,它们代表了数据中心内部的根本性转变,随着数据使用和存储模式的不断发展和变化,这一趋势将继续下去。



留下回复


(注:此名称将公开显示)

Baidu