中文 英语

机器学习和人工智能中的安全漏洞

机器学习的一个主要目标是用机器来训练其他机器。但如果训练数据中存在恶意软件或其他缺陷会发生什么?

受欢迎程度

机器学习和人工智能开发人员开始检查训练数据的完整性,在某些情况下,这些数据将用于训练数百万甚至数十亿台设备。但这只是一个开始,它将成为一个巨大的努力,因为今天没有人非常确定训练数据是如何被损坏的,或者如果它被损坏了该怎么办。

机器学习深度学习而且人工智能是提高系统可靠性和功能并加快上市时间的强大工具。但根据过去几个月采访的十几位专家的说法,人工智能算法也可能包含bug、微妙的偏见,甚至是多年都无法被发现的恶意软件。在某些情况下,原因可能是编程错误,随着新工具或技术的开发和推出,这种情况并不罕见。机器学习和人工智能算法仍在微调和修补中。但与此同时,人们越来越担心它会成为恶意软件的入口,成为日后可能被破解的后门。

即使发现了漏洞或恶意软件,也几乎不可能追踪到问题的根本原因,并修复所有使用该数据训练的设备。到那时,市场上可能会有数百万台这样的设备。如果开发了补丁,那么并非所有这些设备都能一直在线,甚至无法访问。这是最好的情况。最糟糕的情况是,这段代码直到被某个外部犯罪者激活才被发现,不管他们是故意植入的还是偶然发现的。

“因为它是不透明的,你正在发明各种各样的新的攻击模式,从安全的定义来看,这是非常有趣的,”Rob Aitken说手臂的家伙。“你可以从安全的数据传输来考虑,这是一个安全级别。但你也可以从使命的角度来考虑。例如,如果你开发了一个机器学习安全摄像头,你在工厂训练它寻找特定的帽子、衬衫和鞋子,那么没有其他人会注册为人。所以现在任何人都可以走到你家前门破门而入。你创造了一个在机器学习相机出现之前不存在的新问题。这是你用数据本身建立的一个后门。我们可以举一些不那么做作的后门例子,但事实上,有些司法管辖区允许后门,而有些司法管辖区不允许后门,这意味着你必须始终定义什么是安全。”

安全风险无处不在,联网设备增加了从远程位置进行更多攻击的能力。但人工智能及其机器学习和深度学习的子集,在威胁地图上增加了新的攻击点,因为机器被用来训练其他机器,没有人非常确定这些经过训练的机器最终将在何时或如何使用这些数据。这让那些对如何使用训练算法在网络安全和网络间谍活动方面具有巨大优势有深刻理解的人。

“在我们的网络安全团队中,我们花了很多时间担心人工智能与人工智能之间的战斗,”ibm的副总裁兼实验室主任杰夫·韦尔瑟(Jeff Welser)说IBM研究所阿尔马登.“有一个系统,让入侵者自己编写程序,让人工智能能够了解模式中发生的事情,从而更好地渗透,这绝对是我们目前正在研究的领域。在某种意义上,这将是人工智能对人工智能的较量。为了解决这些问题,你可能还需要有一个系统可以在整个网络中寻找活动,并了解自己在这个网络中哪些活动是正常的,哪些是不正常的。这样他们就更有可能注意到,‘嘿,这里发生了一些微妙的奇怪事情。它不像你习惯看到的对某个随机端口的明显调用。这是其他正在发生的事情。”

这也不一定是瞬间的因果关系。有时影响可能需要数年才能显现出来,比如在汽车或飞机导航系统中,后门成为勒索软件的工具。

“我们一直在网络安全领域使用人工智能来帮助监控网络上的流量模式,以查看是否有异常情况,”Welser说。“最初,它是为你可能会有人在那里放一些代码进行通信的事情。但它可能很狡猾,因为它不需要每小时都进行通信,这让我们很容易看到一个模式。可能是随机的。所以你必须能够观察和看到更微妙的模式,这是人工智能擅长做的。但下一层是里面的代码实际上是人工智能代码。所以它也在学习,发生了什么。因此,它将更难追踪。它可能5年或10年都不会出现,这取决于相关人员的耐心。这将是网络安全的下一个战场。 “

在这一点上有一些共识,至少目前是这样。机器学习、深度学习和人工智能刚刚在多个市场和应用中铺开。虽然大多数人都了解这些方法如何解决问题,并提高制造、芯片设计和验证等领域的质量控制,但很少有人了解这一切究竟是如何工作的,特别是在系统开始学习某些行为之后。

“从短期来看,更普遍的攻击是加速调试时间或利用机器学习从外向内的时间,”at的CTO Martin Scott说Rambus.“很多人都在这么做。但你也可以出于恶意而这样做。我们开始把它看作一种识别异常行为的快速方法。也许有一个特定的攻击有一个签名,它不只是一个设备以某种方式行为。如果你注意到在时间上相关的设备开始以一种异常的方式以一种相同的方式起作用。这是一个信号,也许你已经失去了控制,有一些协调的攻击,这是一个重大事件的前兆。所以有很多东西都是ML的前兆,你会说,‘这看起来不对。“它可以触发响应来撤销连接或发送警报。我在机器学习中看到的这种活动比嵌入的潜在代码更多。”

了解风险
在机器学习和人工智能系统中,有一些明显的地方可以开始填补安全漏洞。其中一个涉及限制对算法的访问,类似于今天对普通网络流量所做的事情。

“有几个方面你需要做好,”他说Raik Brinkmann, CEOOneSpin解决方案.“一个是身份验证,以确保发送回数据的设备是你想要与之通话的设备。在硅中,你需要知道这个特定的芯片是你正在与之对话的芯片。有一些知识产权公司瞄准了这个问题。如何将ID刻录到部署的东西中?只有当它在客户处被激活时,你才能得到那个ID,而不是在工厂。您可以将数据源与该芯片关联。然后有像区块链这样的技术来确保从这个设备流出的数据不断经过身份验证和您所期望的数据。对数据流来说,抗篡改性很重要。你需要控制数据流并保证完整性,否则就会有很大的安全问题。”

然而,与更传统的电子系统不同,AI/ML/DL系统本质上更具弹性。与传统处理不同,AI/ML/DL系统生成的结果属于分布,而传统处理如果不能产生准确的答案,系统将会停止或崩溃。如果某些东西不完全适合,这可以提供一些缓冲,这在适应现实世界的变化时很有用,比如识别道路上的物体。但这也使得精确定位问题所在变得更加困难。

神经网络算法与其他数据和软件并没有什么不同。克里斯再生草, CEOBabblelabs.“所有关于核查和保护的问题都适用。但有一件事可能是不同的,如果你拿一个软件的平均体,你随机翻转一点,很有可能会导致软件崩溃。另一方面,如果你拿一个神经网络,它的大部分位都是网络中的参数,如果你翻转一点,它就会愉快地继续执行。它的功能可能略有不同,也可能完全不同,但没有内在的一致性。”

这才是真正的问题所在。理解连接系统中的安全性已经够糟糕的了。

“当你添加4G或5克连接,你给它访问硬件系统,”帕特里克·索海利说,业务和企业发展的副总裁eSilicon.“不管它是不是人工智能,你都在为黑客创造一个进入并操纵某些东西的机会。如果你在半导体设备周围建立了足够的身份验证,当你需要它的时候,无论你需要做什么,那么你就会遇到安全问题。”

但当连接的系统涉及AI/ML/DL时,情况会变得复杂得多。

Arm的艾特肯说:“你需要定义什么是威胁模型,然后理想情况下,你需要某种安全度量。”“这些指标真的很难获得,因为如果你对老板说,‘我需要在这个芯片中增加额外的安全性,这将花费三个月的时间’,你的老板说,‘我能从中得到什么?答案是,这样会更安全。“但是安全到什么程度?安全到什么程度?”拥有这些安全指标真的很关键。然后是区块链部分。不同数据更改所需的身份验证级别和providence。这就像当我去商店买一支笔时,我假设商店是合法获得这支笔的,并不关心我买完后如何处理它。但如果我买了一辆车,你需要知道每一个拥有这辆车的人和这辆车的历史,当我卖掉它时,国家想知道我卖给了谁。它们能比笔更细致地追踪它。同样的价值链适用于数据。”

有什么不同吗?
各地的安全问题都在上升。除了应用软件和网络访问中固有的长期威胁外,Meltdown和Spectre的引入还发现了x86架构中存在的缺陷,这些缺陷在x86架构开发时甚至没有被注意到。十年前,汽车可以被黑客入侵并联网的想法几乎是荒谬的。

但整个系统正在与其他系统连接,这为全球范围内的每个人打开了访问的大门,从麻烦制造者到复杂的有组织的网络犯罪组织和民族国家。

“我们已经做出的转变是从规模复杂到系统复杂,规模才是真正的摩尔定律-经典的一种,就是芯片上有更多的晶体管。Aart de Geus的董事长兼联合首席执行官Synopsys对此.“你现在有很多芯片,很多系统,很多软件环境都相互作用,所以我们深入研究系统的复杂性。事实上,系统复杂性本身特别适合人工智能方法——因为它不是对很多事情的逻辑正确/错误答案,它更像是“看到模式”——从安全的角度来看也是一个挑战。这些都是进步的步骤,但也会带来挑战。”

Mirai分布式拒绝服务(DDoS)攻击2016年10月的那次袭击,让我们得以一窥这种攻击面的范围有多广。利用僵尸网络,三名大学生成功感染了全球数十万台设备,并利用它们使互联网骨干网过载。

令人担忧的是,类似的事情也会发生在AI/ML/DL上,因为当机器被用来训练其他机器时,机器本身实际上会传播问题。只是在这种情况下,它不是典型的病毒。驱动这些系统的是算法的内部工作原理,这使得问题更难识别。安全专家不会寻找单一的安全漏洞,而是在最好的情况下寻找不寻常的模式,在最坏的情况下寻找被广泛接受的行为模式。

解决问题
现在说解决这些问题的最佳方法是什么还为时过早。AI/ML/DL仍处于起步阶段,尽管自20世纪50年代以来,人们就以某种形式对其进行了研究。但直到这十年,AI/ML/DL市场才真正开始发展,这是由于以下几个因素的共同作用:

•无论是在数据中心进行训练还是在边缘进行推理,都有足够的处理能力和内存来处理AI/ML/DL算法。
•这项技术有实际应用,因此有大量资金用于开发更好的算法和更高效的硬件架构。
•技术已经使算法可以在计算机上开发,而不是手工开发,允许公司从现成的算法开始,而不是试图开发自己的算法。

所有这些都使AI/ML/DL能够赶上IBM和Digital Equipment Corp.等大型计算机公司在20世纪90年代初停止的研究。从那以后,IBM继续努力,亚马逊、微软、谷歌、阿里巴巴、Facebook和几十家小公司等云提供商也加入了进来。此外,全球各国政府还投入了数十亿美元用于研究。


图1:人工智能领域的投资去向,以数十亿美元计。来源:麦肯锡公司的报告人工智能:下一个数字前沿?

根据布鲁金斯学会的一项新研究报告在美国,人工智能投资正在广泛的市场上增长,包括国家安全、金融、医疗保健、刑事司法、交通和智能城市。根据普华永道(PricewaterhouseCoopers)的数据,到2030年,中国对全球经济的潜在贡献将达到15.7万亿美元。


图2:哪些区域从人工智能中获益最多。来源:普华永道

有了这样的回报,AI/ML/DL将会继续存在。这为工具供应商打开了大门,比如EDA公司将自动化一些安全检查,特别是在验证方面,所有供应商都表示他们目前正在进行这方面的工作。

他说:“如果我验证了这个产品并出售,但它改变了人们的行为,那么它就不再被验证了。沃利莱茵河的总裁兼首席执行官Mentor是西门子旗下的企业.“我们该怎么办?”汽车制造商是做什么的?这些问题正在得到解决。我们介绍了一种产品,它可以让您在集成电路中设计动态测试与jtag兼容的任何子系统的能力,因此当您的芯片没有任何工作时,它可以根据系统制造商建立的一组标准进行自检,这样它就可以具有动态自检寿命。随着时间的推移,你会看到同样的事情发生变化,因为你有越来越多的神经网络,并将机器学习应用于芯片、电路板和系统。然后你会有更多的方法来验证他们没有把自己改造成一个可能危险或没有功能的空间。”

换句话说,解决这个问题对能够实现自动化的公司来说有巨大的好处,EDA行业很清楚,不仅有机会在内部使用AI/ML/DL,而且还有机会开发可以加强算法开发和安全性的工具。但在此之前,尚不清楚现有算法有多安全,也不清楚如何修复它们。至少在可预见的未来,这可能——也可能不是一个大问题。

有关的故事
机器学习的局限性
圆桌专家,第1部分:为什么机器学习在某些情况下有效,而在其他情况下无效。
IBM将人工智能推向不同的方向
人工智能和深度学习擅长什么,不擅长什么,以及为什么准确性有时会对这些系统不利。
机器学习的局限性
与会专家,第2部分:当错误发生时,如何识别,何时识别,由谁识别?
将机器学习应用于芯片
目标是在提高质量的同时减少创收时间,但这并不总是那么明确。
深度学习的传播
更好的工具、更强大的计算能力和更高效的算法正在推动这项技术成为主流。
机器学习的增长鸿沟
在机器学习领域,这个行业是否正走向另一个硬件/软件的鸿沟?双方都有不同的目标。
EDA挑战机器学习
EDA中的许多任务都可以成为机器学习的完美目标,除非缺乏训练数据。怎样才能解决这个问题呢?



留下回复


(注:此名称将公开显示)

Baidu