中文 英语

保持AI系统与时俱进的挑战

专家:更长的生命周期,更稀疏的算法和不断上升的成本。

受欢迎程度

美国半导体工程公司(Semiconductor Engineering)的企业解决方案技术副总裁、杰出发明家Steven Woo坐下来讨论了人工智能及其走向边缘的问题Rambus;Kris Ardis是马克西姆集成;史蒂夫罗迪,副总裁手臂的产品学习组;和Vinay Mehta,推理技术营销经理Flex Logix.以下是那次谈话的节选。如需查看第一部分,请单击在这里

SE:理想情况下,你希望一起设计硬件、软件和算法来最大化效率,但如果你的设计非常具体,你也会关闭对算法或神经网络的更改。你怎么解释?

“阿蒂”:你是指模型更新之类的改变吗?如果我有我认为是世界上最好的猫标识符,下个月猫标识符1.1就要出来了?

SE:但其中一些设备将会在市场上存在数年,到那时许多系统将会完全过时。如果你设计得如此紧密,你该如何更新它?

“阿蒂”:这又回到了嵌入式微控制器的经典问题边缘,不管它是否有美国有线电视新闻网加速器。这是重新编程。你开始进入类似这样的事情,你如何安全地验证新的权重,而不是新的可执行文件,是适当的。他们来自可靠的来源吗?有很多好的安全知识可以做到这一点。但这些年来,我也看到,当你追逐技术时,你有时会忘记安全方面的事情。危险在于你让人们急于更新模型,而没有建立适当的安全基础设施来帮助你达到“Cat 1.1”或“Cat 1.2”。他说,广播部分已经相对解决了。更重要的是人们实际执行它。

罗迪:从硅的角度来看,人们将构建可扩展的、灵活的系统。各种专门的体系结构可用于加速神经网络,但它们总是与一个或多个不同的可编程元素配对。在更复杂的系统中,您将拥有cpu、gpu和某种专用的NPU。或者在嵌入式系统中,它将是一个M级微控制器和一个专用的,甚至可能是专门的神经网络加速器。您可以灵活地重新编程或支持新的操作符或稍微新的拓扑。即使您的加速器不能处理新的层类型,您也可以返回到它旁边的处理元素。这往往是内置的灵活性。只要“猫1.2”与“猫1.0”的方法大致相似,就没问题。只要在5年或10年的时间里,它背后的数学原理没有根本性的变化,你的系统就会有一定的弹性。

“阿蒂”:说得好。对于未来需要多大的容量,设计师有多少远见?这适用于记忆存储、神经网络加速,以及你是否需要一个温度传感器来确保它是一只活猫。所以需要有远见。你认为你将来需要做什么?

罗迪:它可能有一个你高度优化过的网络。你在8位激活时做4位权重,你就得到了一个特殊的特殊加速器。它可能位于CPU旁边,比如Arm M类CPU。所以为了防止出现一个新的16位精确运算符,这就是你需要的“活猫/死猫”delta。平台中内置了这种灵活性。

梅塔:但这一切都是假设你的原始输入图像或原始输入数据永远不变吗?因此,在诸如嵌入式处理器和嵌入式传感器解决方案之类的源头上,硬件永远不会更新。这是基本假设吗?

罗迪:如果我部署了一个系统,我有一个摄像头和一个音频输入,我知道摄像头和音频输入的位精度。以后可能会出现不同类型的图像传感器或雷达或激光雷达,它们有不同的位置,不同的数据速率。但是,他们有一个完全不同的硬件平台。所以我可以旋转与之相关的硅。这可能会取代一切,所以我所有的智能相机可能会从灯杆上掉下来,取而代之的是更好或更便宜的东西。但至少需要一辆卡车来实现这一点。但是如何安全地做到这一点呢?你如何闪现一个新图像?你如何确保它在途中没有被劫持?你如何确保没有人破解和读取权重或模型本身。 With digital TVs, for example, we see a lot of people wanting to do fancy upscaling of older material to higher resolution. But that content may be owned by a big media company. They want to protect the content, and maybe you want to predict your algorithm for that super resolution enhancement. A lot of those things have to be tackled along the way with a systematic review of the hardware, the software, the trusted firmware, and even the connection back and forth to the net.

吸引:是的,当升级一个系统时,要考虑的不仅仅是实际的神经网络本身。您必须考虑整个基础设施,您正在使用这些基础设施进行安全保护。当然,数据总是有价值的。但即使是模型和培训基础设施也非常有价值,特别是对于这些基于云的基础设施,人们将会共享。在此之上,你有一个问题,你需要多大的灵活性才能改变事情。一方面,你看到人们在做这样的事情fpga——比如Flex Logix的嵌入式FPGA技术。这些东西对于大规模的变化非常有用。他们允许你把硬件留在现场,只要大小合适之类的。很多都是关于将要发生的变化的规模。这些事情真的会导致技术很快被淘汰。在其他情况下,像fpga这样的东西——它们已经存在很长时间了,它们很棒,因为它们已经被用来适应我们迄今为止看到的变化。我们看到的一个非常有趣的趋势,尤其是在数据中心,是模型的大小。训练集变得非常庞大,你开始看到整个系统架构的变化,只是为了适应数据集的大小和模型的大小。5年或10年前很难预测你会达到这样的规模。我最近看到的一份报告显示,模型的尺寸每年增长10倍左右。 It’s faster than every other technology trend, so that kind of thing drives change and makes deployed systems obsolete much more quickly — at least for training. I’m sure there’s other kinds of curves for things like inference, but those kinds of things will drive how quickly those technologies become obsolete in those locations.

罗迪:最大的训练集和训练运行时间是指数曲线。他们将摩尔定律与神经网络训练的复杂性相比较,结果是惊人的。现在是每三个月翻一番,而不是每18个月翻一番。要跟上步伐,还有很多事情要做。

SE:稀疏性会让系统的调整和更新变得更困难还是更容易?

吸引:我在这里作弊一下,其实两者都有。稀缺性之所以伟大,部分原因在于你拥有的固定资源,比如内存容量和芯片存储,可以在市场上保持多久。但是现在你改变了你实际使用存储的方式,所以它不再是常规的数组类型的计算,你会在类似于收缩数组或SIMD引擎的东西中做,因为你有这些洞,你试图不做一些计算。问题是,“你的计算引擎内部是否有足够的灵活性,以便真正利用这种稀疏性?”“随着数据集变得比稀疏性大得多,你也会希望稀疏性得到改善,因为这将使你的固定容量在市场上停留更长时间。”然后问题就变成了,‘你在这个稀疏数据上实现计算的方式是否适用于更高级别的稀疏数据?他说,从某种意义上说,这让硬件留在现场变得更容易。在某种意义上,这使得继续使这些计算有效和相关变得更加困难。

“阿蒂”在灵活性和权力之间也有一个权衡。你设计的东西越灵活,处理器参与的越多,你消耗的能量就越多。您必须考虑底层硬件是什么。为了在战场上拥有灵活性而牺牲权力值得吗?

罗迪:是的,我们已经从高度稀疏的网络中看到了很好的结果,特别是通过聚类和修剪得到非常稀疏的权重集,然后压缩这些权重,将它们存储在边缘设备中,在那里我们压缩我们的架构。我们还将它们存储在芯片上本地化静态存储器在压缩级别上,将它们扩展到MAC计算阵列中的实际消耗。因此,对于大型已部署网络,您可以很好地利用设备上的稀缺内存。归根结底,无论是数据中心还是边缘,大多数机器学习问题都是数据移动问题,而不是真正的计算密度问题。如果你在一个模型中有8000万的重量,你试图在边缘上运行,这完全取决于你在设备中的DRAM中输入和输出的频率。关键不在于每平方毫米能塞进多少mac电脑。它是你在芯片上的DDR连接上一遍又一遍的连接,因为你在一辆车里每秒运行60次推理,或者类似的东西。

吸引我在Rambus工作了很长时间。当有人来找我们为人工智能寻找高性能内存时,我们通常会问他们需要多少内存带宽。他们会说,‘你不可能给我我想要的,所以你为什么不告诉我们你能给我们什么呢?’

SE:物联网术语仍然适用,还是说现在所有东西都是边缘的一部分,因为我们希望所有设备都具有某种程度的智能?

“阿蒂”:我总是对物联网这个术语感到愤怒,因为我认为它实际上只是小设备越来越小、计算能力越来越强以及无线电的可用性的自然进化。这是同样的趋势。它在低功率下处理。电池的使用时间会更长。但现在你有了这个新想法,你可以在相对低的功率下训练这些神经网络,所以你开始思考,如果我的恒温器可以看到我,甚至我的门铃呢?你开始进行头脑风暴,因为技术将走向更先进的过程节点,使用更好的技术来加速它。但这是一个自然的演变,只是推动技术更接近与人的互动点。

罗迪:从整体架构的角度来看,我们称之为物联网的第一代产品是将无线电固定在某种传感器上。现在我们意识到,我们可以在传感器和无线电之间放置小型、高效的机器学习计算,并且只在实际发生有用或有趣的事情时才传输。这对设备的功率特性有很多好处。计算一些东西要比把它传送到你家或工业环境中的某个集合点容易得多。所以,是的,你会看到这种快速转变,大多数关键的物联网设备都嵌入了某种形式的人工智能。

“阿蒂”当前位置从晶体管传输数据到从旧金山传输到华盛顿,传输数据的电力成本呈指数级增长。这告诉你为什么你想让AI处于边缘,为什么你只是想时不时地打开收音机。

吸引:是的,人工智能是普及连接的自然下一步。当你家里只有几台设备时,将数据一路传输到数据中心是有意义的。但一旦你开始拥有大量这样的设备,并产生如此多的数据,移动这些数据的功率和成本就变得困难起来。如果你有1pb的信息要从洛杉矶转移到纽约,实际上把它复制到一组硬盘上,然后放在747的机舱里飞到全国各地,要比通过互联网传输更便宜更快。

SE:所以现在我们正在进行一些相当复杂的设计。人们会为此买单吗?如果没有,我们如何降低成本?

“阿蒂”:这将取决于每个用例。它必须带来一个解决问题的功能,因为它是有用的。最近我想到了一个例子。有一个配对问题。哪个传感器配哪个人,由于配置系统的人为错误而得到错误答案的代价是巨大的,以至于有人考虑在每个传感器上安装一个摄像头来观察这个人,然后说,‘好吧,我和克里斯配对,因为我看到他了。他说,这要视具体情况而定。这可能还需要几十年的时间,但我看到了支付人员对面部识别作为一种身份验证形式的兴趣。你潜在地解决了一个巨大的欺诈问题,所以你必须在系统中节省一些钱,或者有人愿意为能够引入这项技术而付费。

罗迪这是关于总体拥有成本,或整个系统的成本。我看到一个关于玻璃破损传感器的分析,你会想,‘这意味着什么?听声音?比方说,在一座工业建筑或办公楼里安装电线,从安全角度监听门是否打开或玻璃是否破碎?“你会想,‘哇,谁愿意为每个走廊或每块玻璃的每个模块支付几美元?“直到你停下来想想,在一个大的环境中,你有十几栋大楼在晚上无人居住,你不得不雇佣四名保安,让他们开着高尔夫球车四处巡逻,看着一切。或者,你只需要一个或两个保安,他们只需用传感器进行电子检查。警卫可以去麻烦的地方,也许他们只需要每几个小时绕一圈,而不是每半个小时绕一圈。在这个水平上,突然之间,你就省下了整整两个人的工资,而传感器可以自给自足。在很多情况下,这是与设备附加的整体服务相结合的。衡量整个业务运营或业务环境的生产力,并查看这些连接的智能AI物联网设备的效益,变得非常有效。

“阿蒂”每次我的机器人吸尘器继续工作时,我都愿意额外付钱让它不要和我的办公椅打架。另一个困扰我的是内部消费者安全摄像头系统。每次太阳升起和落下的时候,它都会告诉我,因为它认为有人在房子里走动。我会多花几美元买这个东西,也不会给我假警报,就像我在旅行时那样。在亚洲,我每天都在错误的时间设置闹钟。我愿意多付3美元不用再处理这些乱七八糟的东西了。

罗迪最近我的车库门开关坏了。它太旧了,需要更换。我放了一个新的,上面有一个WiFi模块的选项。我的第一个想法是我为什么要那样做?我不会用手机打开或关闭它。但后来我意识到,当我开车离开,想知道我是否关了车库门时,我可以看看我的手机。

吸引:作为一个行业,我们已经习惯了摩尔定律为我们提供更多的晶体管,所以就面积而言,一些房地产和一些硅传统上是免费的。问题只是你选择用它来做什么。实现更好的安全性或可升级性,让你的设备在现场停留更长的时间,这也是TCO的一个因素。这个问题有两个方面。一个是关于你可以实现的新功能,一个是关于可升级性,让你在这个领域停留更长时间,有助于更好的TCO。作为一个行业,我们很幸运能够利用摩尔定律,利用额外的硅空间来做这些事情,以提高可升级性并添加新功能。希望这能持续到未来,并允许我们使用我们过去所依赖的相同类型的技术。



留下回复


(注:此名称将公开显示)

Baidu