中文 英语

数据混乱的边缘

处理器和数据类型的差异将对人工智能系统产生不可预测的影响。

受欢迎程度

边缘数据预处理方面的差异,加上完全缺乏标准化,引发了关于如何在人工智能和机器学习系统中对数据进行优先级和管理的问题。

最初的想法是5克将边缘数据连接到云端,大型服务器群将从这些数据中推断出模式,并将其发送回边缘设备。但是,快速增长的边缘传感器大军(包括流媒体视频)产生的数据太多了,无法使这种方法可行。相反,处理必须在终点或接近终点的地方完成,在今天模糊地定义为边缘

最近的一次报告据思科估计,到2022年,每月互联网协议流量将达到396艾字节/月,高于2017年的约122艾字节/月。此外,更多的设备将会存在——到2022年,预计每人将拥有3.6个联网设备,而2017年为2.4个,其中一半将是机器对机器的连接——每个设备将配备更多的传感器。在工业过程的每个阶段以及制造设备本身也会有更多的传感器。

“三四年前,我们通过3D非接触式光学传感器每秒收集500万个数据点,”该公司首席执行官Subodh Kulkarni说CyberOptics.“今天我们有7500万个数据点。所有这些都必须进行分析和存储。”

大量的数据已经导致了在哪里处理什么。一年前,边缘概念几乎没有出现在任何公司的技术雷达上。如今,它几乎是每个人人生路线图的关键部分。但到目前为止,还没有单一的指令集架构主导这个领域,也没有一家公司占据主导地位。不过,这并没有阻止公司提出索赔。这一巨大的机遇造就了大量的竞争对手,他们都希望抢占市场份额——从亚马逊、谷歌和微软等大型云计算提供商,到思科和苹果等系统公司,以及英特尔、Arm、Xilinx、Achronix、Flex Logix等处理器制造商,以及许多RISC-V授权商。

但由于这个市场是如此新,对于如何以及在哪里处理这些数据,在任何特定地点应该处理多少数据,或者是否应该处理其中的一些数据,都没有达成共识。这导致了硬件和软件架构的不一致,这些不一致可能会持续到市场成熟,甚至可能在那之后很长一段时间。

麻省理工学院(MIT)电气工程和计算机科学教授杜安·博宁(Duane Boning)表示:“目前还不清楚是否会在硬件或软件上推出平台,或者是否会为两者都提供平台。”“但很明显,没有互动平台。重点仍然是转移和驱动。”

相反,我们需要的是一种方法,根据所做的处理量和数据的价值来加权数据。现在还不存在这种情况,而且现在对这一细分市场实施标准还为时过早,因为在这一点上,潜在的问题甚至还没有完全了解。

“你要么有100万传感器或者你有一个系统的层次结构,不同的模式在不同的层次上完成,”Rob Aitken说手臂的家伙。“从硬件的角度来看,这不是问题,但从软件的角度来看,这是一个潜在的噩梦。当所有这些数据都转移到云端时,就有了一堆以cpu为中心的对象。然后在上面加一层安全保护。但对于本地化服务,现在你需要分析来清理数据,并通过时间序列来确定是否存在异常值。”

这就是事情开始变得模糊的地方,因为人工智能而且机器学习都处于持续发展的状态。算法几乎每天都在更新,新的硬件架构也在不断推出,以便用更少的能量进行更快的推理。除此之外,出于安全和隐私的原因,使用私有云和垂直云的势头正在增长。这开始增加了在何处处理内容的不一致性,不同公司之间,甚至在同一家公司内部都可能有所不同。

“这是一个非常适合新产品开发的领域,”该公司总裁阿尼鲁德•德夫根(Anirudh Devgan)表示节奏.“这是矩阵乘数/积累之类的东西,大约有50家公司正在使用它。但关键是其中的软件部分,现在很多这样的公司都在自己做。现在缺少的是一个能够跨越所有这些的框架。TensorFlow做了一些,但这还不够,因为你需要数据管理。目前没有真正好的解决方案。”

分区数据
一个关键问题是如何在不同的系统之间,甚至在这些系统中的组件之间划分数据。

“有两种基本的数据处理方法,”麦肯锡的企业技术研究员迈克尔•舒登弗雷(Michael Schuldenfrei)表示最优+.“一种是抛出大量数据,然后对这些数据提出问题。所以你索引,组织和安排,这适用于很多用例。但它在复杂的关系中就行不通了,因为你不能单独看机器,这在系统的系统中很重要。第二种方法是关于系统和数据分析,你会看到整个故事。我们在数据分区中看到的许多问题都与数据保留有关。随着时间的推移,你需要存储和检索数据,而且你需要经济有效地做到这一点。”

这在制造业中尤其重要,因为这些数据可以用来发现缺陷或不规则现象。但这也必须与理解数据的真正含义相结合,而这需要对应用程序和市场细微差别有深刻的理解。这就是为什么分析公司开始非常重视招聘或培训垂直市场专家,他们可以在数据处理过程中开始破译和衡量模式。

“很多公司都陷入了如何处理他们收集的所有数据的困境,”Schuldrenfrei说。“对于汽车制造业的第一梯队来说,这是一个反复出现的主题。这是您需要引入领域专业知识的地方,因为您需要从原始数据和测试数据中提取意义。这是领域驱动工程,即如何获取原始数据并使其有意义。在半导体制造业中,如果你将原始数据输入机器算法,你可能会发现一些有用的东西。但如果你真正理解了x和y数据,你就可以确定到晶圆中心的距离,并确定故障是否真的是随机故障,或者预测它们可能发生在哪里。”

还需要一种以一致的方式访问所有数据的方法。“我们看到了对数据语义、不同类型设备之间的互操作性、通信协议以及跨服务的网络的巨大需求,”该公司营销副总裁Apurba Pradhan说Adesto微软的嵌入式系统部门。“我们需要一种将数据粘合在一起的方法,这包括发现和配置,在这里你可以分配名称,以及计划、警报和为一系列服务检索数据的能力。”

比较数据
理解数据最简单的方法之一是将其与其他数据进行比较。这就是数字双胞胎背后的整个想法,它可以作为一个参考点。它也是英特尔“精确复制”方法背后的驱动因素,以最大限度地减少不同晶圆厂之间的差异。

但这并不一定有效,因为在每个新节点和各种不同的打包方法中,变化源的数量都在增加。

“这里需要的是数据模型,”的总裁兼首席执行官约翰·基巴里安说PDF的解决方案.“有不同层次的表示,你根据上下文调整数据。这就是数字双胞胎背后的全部理念。”

然而,问题是如何处理边缘传感器产生的大量数据,这些数据可能包括从摄像头到热、振动和其他类型的工业传感器的流数据。半导体制造业尤其如此,设备制造商正在增加各种传感器。

Kibarian说:“在铸造厂的边缘必须进行大量的加工。“大爆炸来自于多方面的分析。”

它还来自于在整个制造过程中各个层次的比较。

CyberOptics公司的Kulkarni说:“你需要在传感器层面分割数据,然后是系统层面,然后是工厂层面。”“这就是为什么财富500强或财富50强公司拥有自己的生态系统是有意义的。如果你看看大型idm,它们在工厂中有自己的软件层。他们在原始传感器层面上收集了大量数据。然后,在系统层面,他们应用对他们更有意义的算法。但这也因工厂而异。他们采用不同的技术,所以不是苹果对苹果。”

很难高估这类数据的价值,因为它对于减少随机故障的数量至关重要。虽然在高级节点中随机故障是一个实际问题,但并非所有故障实际上都是随机的。问题是找到它们,并确定显示这些失败原因的模式。

“你不能测试随机故障,”Gert Jørgensen说三角洲半导体.“因为你要通过设备的筛选测试,让它们暴露,如果它们通过了大量的验收测试,这些测试需要128个小时,也就是一周,你说它们通过了,你就判断它们是好设备。如果在现场发生了故障,当然,我们会做故障分析。我知道汽车制造商正在记录所有故障,以确定每个故障是周期性故障还是随机故障。他们有快速报告系统,这样,当我们发现故障时,他们就会检测出它是否对其他人群产生了影响。如果他们说,好吧,这是一个随机的失败,我们将存储它,看看是否有更多的失败。如果这是一个可以治愈的失败,当然,他们通常会采取一些措施。”

这意味着在必要时存储数据,但是可以存储的数据量是有限的,这就是为什么处理更多靠近边缘的数据以识别模式是至关重要的。

“对于如何处理随机故障和程序,以及我们应该在汽车制造商存储哪些数据,有质量测量,”约根森说。“他们确切地知道产品何时失效,何时生产,如何生产,哪些人参与了生产等等。所以所有东西都被记录和注册到飞机的同一高度。”

分割、征服和分享
最大的挑战是将所有这些数据连接成一个有凝聚力的图片,然后可以用来将其分割成更容易理解的片段。

“设计集成电路的整个想法是可行的,因为你可以忽略其他阶段,”ibm的执行副总裁乔·萨维奇(Joe Sawicki)说Mentor是西门子公司.“否则,你需要的知识量和对所有其他部分的认识将是压倒性的。你可以对数据进行本地化,这样你就不必训练6个互不交谈的人了。当你开始跨越数据的界限时,你必须寻找一种方法,让你不必把人们送回学校。所以,工业物联网我们有系统内测试,你可以把它与设计过程联系起来。”

虽然在边缘同步数据很重要,但还有其他复杂因素,比如在整个供应链上共享数据的意愿。

该公司美国应用研究和技术副总裁Keith Schaub说:“如果你想想探针卡,它是微观的,上面可能有1万到3万个探针,收益率是99%或更高。效果显著.“所以也许只有少数芯片是坏的,但大多数芯片仍然可以工作。那么,如何从2万个探测器中找出一个坏探测器呢?人工智能可以做到这一点。它可以在整个制造过程中用于寻找缺陷,并且它可以通过空中学习RF信号。数据归客户所有,并进入他们的云中。我们一直在尝试与他们合作,进行不同的测试插入来开发数据,这样我们就可以在晶圆上获得大量数据,用于自适应测试、前馈测试和异常值检测。但客户不愿分享这些数据。所以idm会在一开始用他们自己的堆栈加速所有这些,他们有适当的结构来利用这些数据。与OSATs在美国,这是一个复杂得多的供应链,数据也更加分散。”

此外,目前还不完全清楚是否所有数据都需要融合在一起,或者这是否会因细分市场而异。例如,工业物联网很少使用流媒体视频,但它确实包括温度和振动传感器等设备。Adesto的Pradhan说:“还有很多数据。”“在一座商业建筑中,每秒钟可能有10万个数据点。最大的问题是如何处理这些数据。在云端不可能处理所有这些数据。”

结论
关于边缘的定义仍在不断发展,伴随着这个定义的是多层次的数据分析。到目前为止,这是一个全新的领域,在以一致的方式跨多个系统划分数据方面进展甚微。

但是为了让分析在边缘领域真正有效,这些数据需要以对各种行业细分有意义的方式收集和解析。到目前为止,数据分析行业只触及了这个领域的表面。但是,对于那些拥有解决问题的专业知识,以及愿意适应硬件和软件几乎永久变化的人来说,这是一个巨大的机会。

相关文章
领域专业知识对分析至关重要
更多的数据没有多大意义,除非你知道如何处理它们。
利用传感器数据提高产量和正常运行时间
更深入地了解设备行为和市场需求将对整个半导体供应链产生广泛的影响。
脏数据:传感器故障吗?
为什么传感器数据需要清洗,以及为什么这对系统设计的各个方面都有广泛的影响。
将人工智能推向主流
为什么数据清洗和社会问题可能会限制这项技术的采用速度和实用性。
数据分析知识中心
头条新闻、特别报道、博客、视频和白皮书都是关于数据分析的
物联网融入数据驱动设计
随着数据量的爆炸式增长,对边缘处理的强调给物联网模型增加了困惑。



留下回复


(注:此名称将公开显示)

Baidu