中文 英语

推理转移到网络

通过边缘和数据中心之间的处理加快响应速度。

受欢迎程度

机器学习推理最初是作为数据中心的活动,但在边缘推理上投入了巨大的努力。

此时,“边缘并不是一个定义明确的概念,未来的推理能力不仅存在于数据中心和数据收集设备的极端,而且还存在于两者之间的多个点。

“推理并不是一种必须存在于任何特定地方的功能,”库尔特·舒勒(Kurt Shuler)说Arteris IP

然而,在这些中间位置究竟发生了什么仍然是一个猜想。

数据中心还是边缘?二元决策?
在早期的毫升实现,推理已经完成了数据中心美国有足够的处理能力。当时的想法是,需要推理的设备,如智能音箱,可能只在本地做最少的工作,但将大部分数据发送到数据中心进行重要的推理工作。

问题是这会增加延迟并消耗带宽。数据到数据中心和返回需要时间,而且原始数据的传输可能非常重要。以安全摄像头为例,将视频流传输到云端需要大量带宽,而延迟可能会损害摄像头的效率。

Synaptics公司的首席技术官Patrick Worfolk说:“我的门铃视频流不断,占用了我三分之一的互联网带宽。

这引发了当前将推理引入边缘设备本身的推动,从而释放连接并提供更及时的结果。IP at的战略营销经理罗恩•洛曼(Ron Lowman)表示:“人工智能加速器正试图更接近前沿,如果不是前沿的话。Synopsys对此

但许多此类边缘设备的电力预算有限,特别是如果它们依靠电池运行的话。结果是需要变得简单,尽可能简化处理,必要时压缩算法。边缘推断可能略低于云推断,但精度必须保持足够高,以保持用户预期的性能。

这导致了对整个系统架构的两极化观点。推理要么发生在数据中心中,要么留在边缘设备本身中。然而,在网络中需要更复杂的数据处理-以及5克特别是无线技术,为在数据中心和边缘之间的许多地方进行推理创造了机会。

模糊的术语
术语“数据中心”、“边缘”和“云”经常使用不准确。描述高级版本推理将在哪里发生的最通用术语是“数据中心”。“云”往往指的是由亚马逊和微软等主要云供应商运营的数据中心,在那里,云服务可以为广泛的客户提供。但是数据中心也可以是私有的,它们可以驻留在与边缘设备相同的场所。

Mellanox的产品营销高级总监Ron Renmick说:“大多数人都在开发自己的(数据中心)。

这改变了延迟和带宽方面的考虑,但功率限制与云中类似。Flex LogixMellanox首席执行官Geoff Tate和存储营销总监John Kim观察到,由于HIPAA隐私和安全问题,医疗推断很可能保留自己的数据服务器。

与此同时,“边缘”最具体地指的是网络的边缘,即生成数据的设备。它与网络连接,有或没有电线,推理活动从生成的数据开始,并根据通过推理做出的决定结束。但是“边缘”这个词通常用来指数据中心以外的任何东西。这可能包括蜂窝基站、电话存在点、ISP服务器和网关。

这些中间点通常具有比数据中心服务器更低的功率预算,但由于它们通常具有比许多边缘设备更慷慨的电源供应,因此它们不像边缘设备本身那样受到限制。它们也无法像数据中心处理那样进行扩展。但它们可能能够处理比边缘设备中可行的更复杂的算法。

三种推理类型
对不同参与者的采访揭示了云计算和边缘计算之间的三个不同类别的推论。这些都是:

  • 为网络本身进行的推理;
  • 将推理从边缘设备卸载到智能手机;而且
  • 为网络中的其他应用程序提供推理服务。

网络运营变得越来越复杂,因为运营商试图最大限度地利用他们的带宽,并履行他们的服务质量(QoS)协议和安全义务。“人工智能在改善基础设施方面的应用是巨大的,”安诺普•萨哈(Anoop Saha)表示Mentor是西门子旗下的企业.在新的5G网络推出的情况下尤其如此。先进的5G功能需要大量的预测分析,比如使用新的大规模MIMO功能确定波束的聚焦位置。具备推理能力的服务器芯片开始出现在基站中。

视频也需要推理。Sandvine的一份报告称,视频占据了全球下游互联网流量的60.6%。任何网络中的许多点都可能需要提供视频转码,以使视频流适应其目的地的功能和带宽。

此外,安全性还需要在各处进行推理,以便尽快检测恶意数据包,并在它们进一步传播之前将其从网络中清除。这可能是迄今为止人工智能(AI)在网络中最普遍的应用。萨哈说:“到处都有用于数据包分析的人工智能。Mellanox(刚刚成为Nvidia的一部分)已经在他们的I/O处理单元(ipu)中构建了这种能力,正如在最近的Linley Spring处理器会议上所展示的那样。这些应用意味着推理将遍布所有主要的通信网络。

图1:数据中心未来的架构,看起来类似于今天的架构,在整个网络中添加智能网卡。在数据中心之外的网络中也需要这样的安全措施。来源:Mellanox

然而,这些网络推理的例子只服务于网络本身。推理提高了运营效率和质量,并且有必要充分实现5G等新技术的承诺。

下一个不在边缘或云中的推理例子就发生在边缘附近——智能手机充当蓝牙连接设备的推理引擎。这一点最明显的体现在耳机等设备极轻的计算能力上,这些设备的工作空间和功率都很小。刘一鹏,Tensilica音频/语音IP技术营销总监节奏他认为这种情况已经发生了。她说:“对于智能手表和耳塞,如果连接到手机上,那么它们的数据就可以在手机上处理。”

这使得手机成为推断的一个明显的代理,否则可能发生在设备本身。智能手机已经具备了强大的计算能力,但它们很快就会拥有神经处理单元(npu——不要与21世纪初的“网络处理单元”混淆)。Saha说:“一两年后,世界上的每一部手机都将拥有npu。在具体的应用例子中,刘说,“在今天的设备中,更多的语言处理正在进入手机。”

Inference-in-the-middle(服务)
第三个类别是三个类别中最有趣也是最不清楚的——当推理与网络无关时,在网络中执行推理的能力。如果5G基站本身具有推理能力,是否可以内置额外的能力,以便将其出售为推理服务?

从表面上看,这似乎是一种明显的可能性。对于边缘设备本身来说过于繁重的推断工作(并且不涉及手机)可能不需要数据中心的全部功能。Kim说:“有些任务甚至可能无法进入云端。“就像反射一样,它到达脊椎,然后转身,”而不是一直到大脑。理论上,在云之外的某个地方,一个中等重量的推理加速器可以执行推理。

在一个例子中,Lowman说:“服务器芯片正在进入基站。这对AR/VR尤其有利。”

虽然这可能是一个诱人的想法,但有任何迹象表明它正在发生吗?对细节的思考揭示了一些实际问题,这些问题需要得到解决才能发挥作用。“商业模式是什么?Flex Logix的Tate问道。首先,一些应用程序将比其他应用程序受益更多。VR应用程序可能能够使用强大的本地处理系统运行,但AR系统可能需要融合来自其他来源的数据,这使得访问网络成为必要。但是延迟也必须保持尽可能低,这使得尽可能接近边缘的数据集中在一起非常有用。

在哪里执行推断的决定也可能因位置和设备而异。例如,面向手机的应用程序可能会尝试利用5G基站的推理能力。但如果手机运行在wifi呼叫模式下,使用的是有线互联网连接而不是蜂窝网络系统呢?在这种情况下,电话通信将绕过基站。它是否能够利用一些其他的网络位置,或者这是否意味着它可以一直到数据中心?

一些大型提供商或应用程序公司可能会为灵活的推断路由构建意外事件。例如,如果网络在某个节点上有空闲推理能力,它可能会捕获会话并在那里处理它,从而释放该点和数据中心之间的带宽。另一方面,如果它没有容量,它可能会将会话传递到其他上游引擎,或者可能一直传递到数据中心。

在另一种场景中,如果中间推理的成本高于数据中心推理,则具有自己的数据中心的应用程序提供者可能优先将任务发送到数据中心,除非流量特别高。在这种情况下,它可以使用中间节点作为峰值处理溢出救济。

对于智能家居应用,家庭网关是另一个可能的推断点。如果一家公司为一个家庭配备了自己的集线器,那么该公司就可以完全控制家庭内部的流量管理。另一方面,如果家庭拥有来自不同公司的智能设备,那么ISP可能在调制解调器或其上游自己的服务器中具有推理能力。

“Netflix正在与ISP进行本地缓存,”Lowman说。“他们或许可以在那里做一些人工智能方面的事情。”

虽然Cadence的Liu并不认为这种情况会发生,但她同意这是一种可能性。“有了智能音箱或电灯开关,你就可以在网关中进行(推理)。”

图2:在这个推测的场景中,耳机可以将数据发送到手机中进行推断,或者从手机中通过蜂窝网络或WiFi/有线网络发送数据。在这个过程中的任何时候,NPU硬件都可以执行这个任务。如果任何一个点不具备推理能力,那么任务就可以向上移动到下一个单元。这并没有考虑到安全性或业务模型。资料来源:Bryon Moyer/Semiconductor Engineering

然而,更困难的问题涉及商业模式。对于这些功能的扩展,有两种明显的可能性。在一种情况下,推理是为网络本身构建的,但具有处理高流量事件的能力。在这些时间段之间,它可能会选择“租用”闲置产能以获得额外收入。在另一种情况下,提供商可能会选择构建多余的容量,其明确目的是将其用于非网络应用程序。第二种情况特别要求在额外硬件上的投资获得回报。但谁来为这种回报买单呢?

有几种不同的可能性,取决于谁的需求被满足。如果一家大型云计算提供商认为这可以以增量成本提供更大的灵活性和更大的容量,那么它可能会与网络提供商(或几家)达成协议,为在其域外执行的任务支付费用。或者,大型应用程序提供商可能会做出类似的交易,以提高其应用程序在用户眼中的性能。大型企业可以利用这一点从自己的内部数据中心卸载任务。在任何一种情况下,计费和任务管理设施都需要整合到网络的某些部分中,而到目前为止,这些部分还不需要这种功能。

安全和隐私方面的考虑也发生了变化。他说:“这既改善了安全,也威胁了安全。虽然网络习惯于保护运动中的数据,但这是通过加密实现的。如果网络本身正在对数据进行操作,那么它必须能够在处理数据之前对其进行解密。在这种情况下,需要对正在使用的数据进行保护。对于端到端加密,通常只有在端点上才能使用加密密钥,因此数据中心需要一种方法将任务委托给中间的“委托”节点。

金桂冠提供了一些可能如何运作的设想。它们都假定委托节点不仅操作一个任务,而且操作整个会话(可能持续数秒或更长时间)。这有助于摊销实现此工作所需的额外密钥交换所需的时间。

  • 在一种场景中,委托节点在会话启动之前获得授权,边缘设备直接通过委托而不是数据中心进行身份验证。
  • 在另一种场景中,身份验证在数据中心进行,但随后数据中心授权在委托和密钥服务器之间进行密钥交换,以便委托可以从密钥服务器检索现有密钥。
  • 如果数据中心和委托密钥必须不同,则边缘设备可以使用委托运行单独的身份验证,以便数据中心会话使用一个密钥,委托会话使用另一个密钥。
  • 或者,边缘设备可以只使用委托进行身份验证,然后委托与数据中心通信以授权会话。这类似于第一个场景,只是委托必须实时从数据中心获得权限。

这些细节让概念上听起来简单的事情变得更加复杂——但这并不意味着它不可能实现。如果经济上有足够的吸引力,这当然是可行的。但这仍然是一个大问题:这值得任何人去做吗?

一些人认为这不太可能发生。Cadence公司Tensilica vision和AI DSP IP产品管理组总监Pulin Desai表示:“一般来说,当我们观察人工智能和来自视觉(或其他)传感器的数据时,它们不会在中间进行推理。”SoC制造商瞄准的是真正的边缘设备。”如果它真的发生了,也不指望这样的事情会很快实现。金说:“现在还为时过早。有一些已经上市了,但数量非常有限,”预计三到五年后会有更严重的使用。



留下回复


(注:此名称将公开显示)

Baidu