中文 英语
18lickc新利
的意见

保护数据中心AI/ML工作负载的加速器刀片

为什么这些设备的安全性是不同的,以及如何解决它。

受欢迎程度

数据中心为其个人客户处理大量的AI/ML训练和推断工作负载。如此大量的工作负载需要高效的处理,为了处理这些工作负载,我们看到市场上出现了许多新的解决方案。其中一种解决方案是可插拔的加速器刀片,通常部署在大规模并行阵列中,实现了最新的最先进的神经处理架构。这些刀片处理有价值的推理模型、算法和训练数据,因此它们需要高水平的保护。

机器学习资产面临许多不同的威胁。这可能包括恶意试图影响人工智能系统做出替代决策的输入攻击,或窃取推理模型、算法和训练数据等有价值的资产。攻击可以针对软件、固件、硬件或所有这些资产。它们可以是侵入性的或非侵入性的。它们可以通过网络,通过边缘节点,或者直接以端点为目标。随着越来越多的人工智能设备进入我们的日常生活,对它们的任何攻击都可能威胁到隐私、财产和人身安全。

加速器叶片包含几个关键部件。系统的核心由强大的加速器芯片提供,从少数到大量的专用AI/ML处理单元,每个单元都有自己的附加内存池。它们以最短的延迟处理尽可能多的任务,尽可能多的数据。通常,还有一个Gateway CPU,它有自己的专用Flash和DDR,用于管理模型和资产,以及程序和控制加速器。最后,通过高速网络或PCI Express (PCIe)接口提供到fabric的连接。

加速器刀片需要遵循安全要求,至少要对刀片本身进行身份验证和保护。然而,AI/ML加速还需要一些额外的安全需求。如前所述,保护资产当然是首要考虑的问题。这可以包括保护资产免受盗窃或替换,并确保遵守数据隐私法规,如美国的HIPAA和欧洲的GDPR。当加速器刀片安装在公共云服务器中时,它们通常被分配处理多个用户或租户。在这种情况下,以一种安全的方式在不同用户或租户之间切换的能力是极其重要的。最后,还需要安全性,以避免系统滥用,确保所提供服务的正确计费,并防止系统的不道德使用。

根据开创性的微软白皮书关于这个主题,高度安全的设备有七个属性:信任的硬件根、深度防御、小型可信计算基础、动态隔间、无密码身份验证、错误报告和可再生安全性。每一种方法都值得单独进行详细的研究,但是为了本博客的目的,我们将在保护加速器刀片的上下文中讨论硬件信任根(RoT)的一些安全用例。

一个主要的安全用例是确保加速器本身的可用性。攻击者可以篡改加速器硬件以拒绝或中断使用或绕过其安全措施。信任根可以监视系统状态和内存内容,并检测与应用程序和cpu或MBUs无关的篡改活动。信任根还可以检测故障注入等安全攻击。

那么,这究竟是如何工作的呢?信任根和网关CPU监控测试和调试逻辑、硬件配置和SoC中的其他硬件状态。加速器中的信任根监视AI加速器的运行。信任根定期散列已知的嵌入式SRAM状态以检测篡改,它也可以定期散列不变的闪存数据。信任根中的内部逻辑检测对系统的物理攻击,安全协议引擎可以监控网络流量。然后,在信任根的安全边界内运行的安全应用程序决定如何对检测到的异常采取行动。

其次,我们在前面指出,推理和训练模型是需要保护的有价值的资产。在使用或加载到AI加速器时,这些模型可以被拦截、替换或更改。训练完成后,生成的推理模型需要以加密形式存储,并在使用时动态解密。

此场景的信任根实现将包括以下步骤。签名加密推理模型存储在片外闪存模块中。信任模块的根从flash中读取推理模型,解密它们,并对解密的数据进行哈希。信任根验证签名并比较哈希值。只有当哈希值匹配时,模型才会被加载到加速器中。或者,如果每个加速器都有自己的闪存,那么信任的本地根可以处理这个问题。信任根将提供加密、散列和数字签名验证功能。

最后,当一个完整的AI生态系统以推理模式运行时,对手可以针对或篡改推理过程或推理结果。可以使用安全通道来保护推断结果,就像用于保护输入数据完整性的通道一样。在这种情况下,主机模块通过网络与边缘设备通信,并将使用预先配置的密钥和身份进行相互身份验证。建立安全通信通道后,信任根和边缘设备管理推理结果向服务器的传递。一旦载入AI加速器,就会在提交推理结果之前对其进行完整性检查。

Rambus拥有30年的安全专业知识和广泛的硬件安全IP解决方案组合,旨在支持处理有价值数据的高性能数据中心的安全需求。我们有针对最先进的AI/ML训练加速器需求量身定制的信任根解决方案,以及适用于物联网设备中的推理引擎的轻量级解决方案。

额外的资源:



留下回复


(注:此名称将公开显示)

Baidu