18.luck新利
的意见

如何提高可靠性、可用性和可服务性为HPC soc水平吗

为保证数据中心的系统正常运行时间提供硅生命周期管理。

受欢迎程度

由查理,丽塔霍纳,Pawini Mahajan

而一旦大型数据中心和超级计算机领域,高性能计算(HPC)已经成为,而无处不在的,在某些情况下,重要的在我们的日常生活。因此,可靠性、可用性和可服务性,或拉,是一个概念,更多的HPC SoC设计人员应该熟悉。

RAS可能听起来像一个不言而喻的术语,但它真的涉及HPC soc的时候吗?数据中心运营商一直保持与客户服务水平协议提供保证系统正常运行时间。RAS补充这些协议和现在可以支持新技术,最终得出可行的见解。在本文中,最初发表在“从硅到软件“博客,您将了解为什么硅生命周期管理(SLM),嵌入式IP监控,和正确的设计和验证工具可以是你的盟友在实现高水平的RAS HPC的设计。

3关键高性能计算组件

视频捕捉到一个家庭的安全门铃或建筑物的监测系统。财务和业务建模。科学和医学研究。增强现实和虚拟现实。的例子不胜枚举时依赖于高性能计算的应用领域。收集的数据的增多我们的设备和系统,AI-fueled分析,大量的计算资源的可用性,和云收敛可以迅速获得有用的,可操作的见解,使HPC不可或缺的一部分比当一个更广泛的应用第一个超级计算机出现在1940年代

今天一个典型的高性能计算基础设施包含三个关键要素:计算、网络和存储。每个需要一定程度的性能、延迟、功率效率、可伸缩性、生产力,和安全。让我们仔细看看每个元素:

  • 计算由cpu和gpu,加速器,网络芯片(NoC)和计算服务器。这是高性能数据处理发生的地方。复杂的多核,甚至multi-die系统架构和快速访问大记忆,高带宽的I / O接口,电源/冷却管理和安全是关键特征。芯片监控和分析可以支持RAS的目标。
  • 网络交换机和路由器,适配器,桥梁、中继器、网络接口卡(像一个SmartNIC),光学和电子互联。这个元素提供高性能连接,理想的高吞吐量,低延迟,能源效率、可配置性和可伸缩性,实时监测和报告,和安全。调试功能,前向纠错(FEC)和IP可以支持RAS的要求。
  • 存储由固态硬盘(SSD)或硬盘驱动器(HDD),存储区域网络(SAN)和网络附加存储(NAS)。理想情况下,应该提供高带宽存储存储元素,减少数据传输能量和延迟、灵活性、可伸缩性、可靠性和安全性。功能建自测(阿拉伯学者),纠错码(ECC),冗余可以促进高水平的RAS。

有两个主要类型的HPC系统:均质机和混合的。均质机只有cpu。相比之下,混合动力车都gpu和cpu、gpu和cpu负责计算运行任务。

HPC集群可以由大量服务器,总物理尺寸,能源使用,或热功率的计算集群可能成为一个严重的问题。此外,有专用的通信要求的服务器集群中是非常独特的。

因为小设计差异金额大的好处当乘以集群中的服务器的数量,我们看到服务器的出现为HPC优化设计。有时,这些设计针对大型公共网络运营商,如搜索引擎公司,在HPC集群提供类似的好处。然而,他们还可以提供功能只适合高性能计算用户。例如,如果系统被设计用来提供集群互连不同,可能有潜在重大减少布线。

可行的见解通过芯片监测和分析

HPC的效用在于其能力来处理大量的data-petabytes甚至zettabytes-and实时运行复杂的模型(或接近实时)。不言而喻,任何时候一个HPC系统宕机,它会导致亏损和业务中断。与关键任务应用程序影响变得陡峭。在高级节点,multi-die等大型单片死亡或者复杂的体系结构,满足RAS需求变得更具挑战性。

取决于应用程序的临界状态,系统可以提供冗余备份的失败。除了冗余,还有更多的你可以在系统和芯片实现RAS目标水平。SLM在这里起了很大的作用,提供智能化、自动化的芯片IP监控生成可行的见解和方法通过一个系统的每个阶段的生活。

设计师一直将显示器和传感器嵌入到他们的芯片数几十年;然而,这项技术已经进化到一个点,它现在可以提供更准确的数据与更高级别的粒度。这使得更大的可见性设备的实时环境、结构和功能的条件。例子包括热热点地区的监测、过程变化,电压供应,以及准确的测量时间的利润。

由于嵌入式和基于云计算的分析,以及统一的SLM的可用性解决方案,设计团队将能够建立一个连续、实时的硅卫生设备的照片,不仅在设计期间,in-ramp和生产中的阶段还在攷虑操作。他们可以得到一个更好的理解的根本原因和调试和维修,降低成本和潜在的危害。SLM可以解决的问题包括晶体管老化和延迟的缺点。它所带来的好处的照片,考虑一个卫星有bug。通常情况下,它可能需要几个星期取回修理板从实验室安装在卫星,把它的委员会在较长时间内对故障诊断和维修。通过故障检测和故障修复领域通过SLM技术,团队可以让他们用更少的和较短的中断系统启动和运行。

看一个数据中心,我们可以看到一个例子突出RAS SLM如何促进会议需求。

  • 在硅层,该领域的远程调试的能力是至关重要的团队努力成功超大型数据中心。SLM提供远程遥测和监控,使这一切成为可能。
  • 在系统层面上,精确时钟节流,另一个SLM能力,对最大化至关重要数据吞吐量和CPU、GPU,和AI引擎利用率。
  • 在数据中心级、监控服务器性能、网络拥塞、和磁盘利用率与SLM工具是关键中断检测和预测数据,这可以增加正常运行时间。
  • 在超大型水平,团队可以使用SLM减少片上热可靠性和供应压力延长。
  • die-to-die高速接口,信号完整性监测SLM提供,以及接口的冗余的完整性,有助于确保chiplet设计的鲁棒性。

总结

而不是断开连接的一组点工具,一个端到端的解决方案,汇集了从设计校准分析芯片监控和系统性能优化的过程可以解决RAS目标更加无缝的。Synopsys对此是独特的在提供这样一个端到端流程,与我们硅家庭生命周期管理低延迟,辅以广泛投资组合,silicon-proven IP和为HPC应用程序设计和验证技术。在这组解决方案的功能,如身体意识到硅监视器、云分析,和嵌入式分析和优化技术。SoC传感器IP和过程监控,也是家庭的一部分,用于在设计,in-ramp生产中的,攷虑优化。可靠的硅在生产阶段和领域,显示器可以对硅收集实时数据,加上全面的测试和调试解决方案,确保高RAS。

得到越来越广泛的应用,现在依靠HPC,保持高水平的可靠性、可用性和可服务性这些系统是一个关键的考虑。实现最优水平的RAS支持从视频到气候变化建模是另一个重要的元素在保持我们的数字,聪明的一切世界运行的最高速度。

了解更多

如果你想念他们,补上这些其他相关博客更多的见解:

他是工程的高级副总裁查理Synopsys对此解决方案组。

丽塔霍纳是产品营销总监Synopsys对此解决方案组。

Pawini Mahajan员工产品营销经理在Synopsys对此EDA组。



留下一个回复


(注意:这个名字会显示公开)

Baidu