中文 英语

AI/ML工作负载需要额外的安全性

错误的模型、有毒代码和损坏的数据可能导致广泛的破坏。

受欢迎程度

所有电子系统都普遍需要安全保障。但考虑到处理极具价值数据的数据中心机器学习计算的增长,一些公司正在特别注意如何安全地处理这些数据。

所有常用的数据中心安全解决方案都必须发挥作用,但是需要额外的努力来确保模型和数据集在存储时受到保护,无论是在传输到加速器刀片或从加速器刀片传输时,还是在同一服务器内同时承载多个租户的系统上进行处理时。

“推理模型、推理算法、训练模型和训练数据集被认为是有价值的知识产权,需要保护——尤其是因为这些有价值的资产被移交给数据中心,在共享资源上进行处理,”安全IP的高级产品营销总监巴特·史蒂文斯(Bart Stevens)说Rambus他在最近的一次演讲中说。

任何对AI训练数据的篡改都可能导致错误模型的创建。对一个训练有素的模型的任何改变都可能导致人工智能引擎得出错误的结论。“所有三种主要的学习类型(有监督、无监督和强化)都使用加权计算来产生结果,”麻省理工学院的研究员Gajinder Panesar说西门子EDA.“如果这些权重是陈旧的、腐败的或被篡改的,那么结果就可能是错误的。”

攻击对AI工作负载的影响将取决于应用程序,但结果永远不会是好的。唯一的问题是它是否会造成严重的损害或伤害。

虽然攻击是保护的主要重点,但它们并不是唯一需要关注的领域。帕内萨说:“‘威胁’可以分为两大类——不良行为者的故意干扰和无意的问题,这些问题通常可以被认为是硬件或软件中的漏洞。”

安全基础
有一些基本的安全概念适用于任何计算环境,人工智能计算也不例外。虽然必须特别注意AI工作负载的某些方面,但必须保护的不仅仅是工作负载。Panesar说:“我们必须考虑整个系统运行的完整性,而不仅仅是我们正在处理的特定芯片或片上子系统。”

正如Stevens所概述的,安全性有四个方面必须处理。首先,数据和计算必须保密。其次,攻击者不可能在任何时间任何地点更改任何数据。第三,所有参与计算的实体都必须是真实的。第四,攻击者不应该干扰计算平台的正常运行。

这就引出了一些基本的安全概念,希望参与安全系统设计的任何人都熟悉这些概念。首先,数据保护分为三个阶段:

1.静止数据,包括任何已存储的数据;
2.数据从一个地方传输到另一个地方
3.正在使用的数据,当它被使用时,它在计算平台中是活跃的。

另一个熟悉的需求是可信执行环境(TEE)。这是一种计算环境,仅限于高度可信的软件,并且只能通过高度受控和可信的通道访问计算平台的其余部分。任何不能被破坏的关键硬件或其他资产都将放置在这个环境中,并且在TEE之外不能直接访问。

TEE提供了一种处理关键安全操作的基本方式,这种方式受外部软件的干扰要小得多。它将应用程序软件与较低级别的安全操作分开。它还管理引导过程,以确保其安全可靠地进行,捕捉任何引导不真实代码的尝试。

安全计算需要大量的操作。身份验证确保与之通信的实体是真实的。加密保护数据不被窥探。软件和其他数据工件可以通过散列和签名操作来保证其来源。所有这些功能都要求密钥具有足够的强度,以防止暴力破解,这使得有效的密钥配置和管理变得至关重要。

通过确保tee和其他关键安全电路受到保护,防止试图闯入或中断操作,提供了额外的保护。必须保护侧通道,以确保没有办法通过测量外部可探测的电子工件(如功率或电磁辐射)来窥探数据或密钥。

最后,电路可以提供进一步的保护,它可以监控内部活动,如果有可疑的东西出现,就会发出警报。

具体应用到人工智能
保持AI工作负载的安全从这些基本的安全需求开始,无论是训练还是推断,以及是否在数据中心、本地服务器或边缘设备中进行。但是,还有一些特定于AI工作负载的额外考虑因素必须考虑在内。

Stevens解释说:“需要安全的人工智能实现来防止推理算法、模型和参数、训练算法和训练集的提取或窃取。”“这也意味着防止这些资产被恶意算法或数据集意外取代。这将避免毒害系统来改变推断结果,导致错误分类。”

新的AI处理硬件架构提供了另一部分需要保护的系统。史蒂文斯指出:“系统的核心显然是一系列强大的加速器芯片,从少数到大型专用人工智能处理单元矩阵,它们都有自己的内存池,只有一个任务,即在最短的时间内处理尽可能多的数据。”

设计师必须首先考虑需要保护的特定资产。最明显的是训练或推理硬件。Stevens说:“通常在刀片上看到的是一个网关CPU,带有专用闪存和DDR。”“它的任务是管理模型,添加资产。控制加速器。然后是到fabric的连接—高速网络或PCIe-4或-5接口。一些叶片还具有专有的叶片间链接。”

图1:数据中心的通用AI刀片。除了通常的CPU、动态内存和网络连接之外,加速器将在内部SRAM的辅助下完成繁重的工作。来源:Rambus

图1:数据中心的通用AI刀片。除了通常的CPU、动态内存和网络连接之外,加速器将在内部SRAM的辅助下完成繁重的工作。来源:Rambus

此外,有各种类型的数据需要保护,这些数据取决于操作是训练还是推断。在训练模型时,必须保护训练数据样本和被训练的基本模型。在推断时,训练的模型、所有权重、输入数据和输出结果都需要保护。

在操作上,这是一个新的、快速发展的领域,因此调试是可能的。任何调试都必须安全地执行-并且任何调试功能在没有经过身份验证的使用时都必须关闭。

对代码或任何其他资产的更改必须在安全的更新中交付。特别是,模型很可能会随着时间的推移而改进。因此,必须有一种方法来用新版本替换旧版本,同时不允许任何未经授权的人用不真实的模型替换有效的模型。

“安全固件更新,以及能够以安全的方式调试系统的能力,这些天正在成为赌注,”史蒂文斯指出。

数据泄露的风险
很明显,必须保护数据不被窃取。任何这样的盗窃行为都明显违反了保密规定,但如果涉及到政府法规,后果会更加严重。欧洲的《通用数据保护条例》(GDPR)规则和美国的《HIPAA》(HIPAA)保健规则就是这类条例的例子。

但除了直接盗窃,数据操纵也令人担忧。例如,训练数据可以被改变,或者作为一种探查秘密的手段,或者只是为了破坏训练,从而使得到的模型工作得很差。

大部分计算——尤其是在训练模型时——将在数据中心中进行,这可能涉及多租户服务器以实现低成本操作。“由于各种原因,越来越多的公司和团队依赖于共享云计算资源,主要是为了可扩展性和成本,”at的安全IP高级产品营销经理Dana Neustadter观察到Synopsys对此

这意味着多个作业共存于同一硬件上。然而,这些作业的执行安全性必须不比它们在单独的服务器上差。它们必须通过软件隔离,以防止任何东西——数据或其他东西——从一个作业泄露到另一个作业。

Neustadter说:“当系统不再受你控制时,将计算转移到云端可能会带来潜在的安全风险。”“不管是错误的还是恶意的,一个用户的数据可能是另一个用户的恶意软件。用户需要信任云提供商满足合规标准,执行风险评估,控制用户访问等等。”

容器化通常有助于在多租户环境中隔离进程,但一个流氓进程仍然有可能影响其他进程。Panesar指出:“导致应用程序独占处理资源的问题可能会影响其他租户。“这在医疗报告等关键环境中尤其重要,或者在租户有约束性SLA(服务水平协议)的任何地方。”

最后,虽然它可能不会影响计算的具体结果或数据的机密性,但数据中心操作必须确保管理操作是安全的,不会进行修补。史蒂文斯指出:“安全性也应该存在,以确保服务的正确计费,并防止不道德的使用,如种族定性。”

新标准将帮助开发人员确保他们涵盖了所有必要的基础。

Neustadter表示:“业界正在开发pci -接口安全等标准,PCI-SIG推动了完整性和数据加密(IDE)规范,并辅以组件测量和认证(CMA)和可信执行环境I/O (TEE-I/O)。”“可分配设备接口安全协议(ADISP)和其他协议扩展了可信虚拟机的虚拟化能力,这些虚拟机用于将机密计算工作负载与托管环境隔离开来,并支持强大的身份验证和密钥管理。”

图2:AI计算涉及多个资产,每个资产都有特定的安全需求。来源:Rambus

图2:AI计算涉及多个资产,每个资产都有特定的安全需求。来源:Rambus

实施保护
给定一个典型的AI计算环境,那么,必须采取几个步骤来锁定操作。他们从硬件开始信任的根源(HRoT)。

HRoT是一种可信的、不透明的环境,可以在其中执行身份验证和加密等安全操作,而不暴露所使用的密钥或其他秘密。它可能是TEE的关键组成部分。它们通常与经典体系结构中的处理器相关联,但这里通常有多个处理元素。

特别是,专用于人工智能处理的较新的硬件芯片没有内置的信任根功能。史蒂文斯在后续采访中解释说:“最近许多AI/ML加速器设计——尤其是初创公司的设计——主要集中在获得最优的NPU处理上。“安全不是他们的主要关注点,或者说不在他们的考虑范围之内。”

这意味着系统需要在其他地方提供HRoT,为此有几个选项。

一种侧重于使用中的数据的方法是给每个计算元素(例如主机芯片和加速器芯片)提供自己的HRoT。每个HRoT将处理它自己的键,并在其相关处理器的方向上执行操作。它们可能是单片集成在soc上的,尽管目前还不是神经处理器的情况。

另一种方法侧重于运动中的数据,是在网络连接处提供一个HRoT,以确保进入电路板的所有数据都是干净的。Stevens说:“对于运动中的数据,吞吐量要求非常高,延迟要求非常低。”“系统使用临时密钥,因为它们通常使用会话密钥。”

为了进行身份验证,刀片将需要获得一个身份证号码这并不一定需要保密,”他继续说道。“它只需要是唯一的和不可变的。它可以是多个id,一个用于每个芯片,一个用于刀片或设备本身。”

当安全性被构建到未来的神经处理单元(npu)中时,这些外部hrot可能不需要。史蒂文斯补充说:“最终,当初创公司最初的NPU概念证明被证明是成功的时,他们第二次设计的架构将具有信任的基础功能,这将具有更多的加密功能来处理更大的工作负载。”

数据从SRAM移动到DRAM,或者反之,也应该加密,以确保它不会被窥探。这同样适用于任何到相邻板的直接侧连接。

在已经非常密集的计算中嵌入如此多的加密,操作就有陷入困境的风险。安全操作很重要,但如果它破坏了操作本身,对任何人都没有好处。

Stevens补充说:“网络或PCI Express到fabric的链路应该通过插入一个高吞吐量的L2或L3协议感知的安全数据包引擎来保护。”“这样的包引擎几乎不需要CPU的支持。”

这也适用于内存和刀片到刀片的流量加密。他说:“网关CPU DDR和本地AI加速器gddr的内容可以通过内联内存加密引擎进行保护。”“如果存在专用的刀片到刀片侧通道,则可以通过高通量AES-GCM进行保护[伽罗瓦/计数器模式链接加密加速器。”

最后,标准的安全保护可以通过跟踪实际操作的持续监控得到支持。Panesar说:“你需要从硬件中收集信息,这些信息可以告诉你系统的行为。”“这需要实时、即时和长期的统计。它还需要是可理解的(无论是人还是机器)和可操作的。温度、电压和定时数据都很好,但你还需要更高层次、更复杂的信息。”

但这并不能取代严格的安全措施。他补充说:“其目的是找出可能逃避传统安全保护的问题,但它不能取代这种保护。”

艰苦的工作
这些元素实现起来不一定简单。这需要努力工作。Synopsys的安全IP架构师Mike Borza指出:“弹性,安全更新系统的能力,以及从成功的攻击中恢复的能力都是真正的挑战。”“建立这样的系统非常、非常困难。”

但随着人工智能计算变得越来越常规,那些不是数据建模或安全专家的工程师将越来越多地转向ML服务,因为他们将人工智能应用到他们的应用程序中。他们需要能够依靠基础设施,妥善保管重要数据,这样他们将用来区分产品的模型和计算才不会落入坏人之手。

相关的
芯片和人工智能系统中的安全权衡
与会专家:安全性如何影响功率和性能,为什么人工智能系统如此难以安全,以及为什么隐私越来越受到重视。
安全研究位
在8月21日USENIX安全研讨会上发表了新的安全技术论文。
永远在,永远在危险中
芯片安全问题随着更多的处理元素、自动唤醒、无线更新和更强的连接性而增加。
安全知识中心
关于硬件安全的头条新闻、白皮书、博客、视频
人工智能知识中心



留下回复


(注:此名称将公开显示)

Baidu