硬件如何影响AI数据

传感器和其他设备的退化会以难以识别的方式扭曲人工智能数据。

受欢迎程度

干净的数据对于人工智能和机器学习的良好结果至关重要,但数据在其生命周期的多个阶段(从生成的那一刻一直到处理的时候)可能会变得有偏见和不那么准确,而且它可能以不总是明显且往往难以辨别的方式发生。

明显的数据损坏会产生相对容易识别的错误结果。相比之下,有偏差的数据可能会导致更细微的变化。大多数人都意识到用于创建算法的语言可能存在偏见人工智能/毫升/戴斯。莱纳姆:,但偏见可能会以不涉及人类的方式发生。事实上,用于推理或训练的算法可能工作得非常好,无法识别偏差,因为这些像差太小,以至于无法检测到。

但偏见也可能是累积的,在某些情况下是指数级的。因此,它可能会在更远的地方引起问题,使得很难追溯到问题的起源。

公司客户成功总监凯文•罗宾逊(Kevin Robinson)表示:“偏见可能始于数据产生的任何地方yieldHUB.“每个测量都有精度水平和公差,但它们会随着时间的推移而变化。传感器要有可变性,这种可变性会随着时间的推移而改变。所以你必须弄清楚它在校准周期中的位置,并不断尝试纠正可变性。这是部分原因。但每个数据也都有一定的可变性。因此,如果你随机添加所有这些数据,你可以将可变性乘以。”

这对汽车、机器人以及制造业中的人工智能系统具有重大影响。虽然德国汽车制造商告诉他们的供应商,电子元件需要可靠使用18年,但这些要求通常集中在零件承受道路上多年的热、冷和振动磨损的能力上。随着时间的推移,传感器的微小变化——或者在系统的互连或存储器的任何其他部分——都会影响他们正在收集的数据。基于这些数据做出的决定需要认识到这些变化。

无论最终应用程序如何,这都是正确的,但是随着在复杂系统中添加更多数据源,它会变得更加复杂。数据本身必须按重要性进行加权,而这种优先级划分可能会产生另一组问题。这对于通过某种预处理清理的稀疏数据来说尤其麻烦。虽然稀疏数据运行得更快,但任何类型的偏差对稀疏数据的影响都更大。

“在收集不同制造和测试阶段的数据时,存在固有的统计偏差,”诺姆·布鲁萨德(Noam Brousard)说proteanTecs.“由于我们试图从间接数据中获得见解,因此需要在数据清理方面投入大量精力。即便如此,也存在内在的不准确性。例如,您可以从一系列辅助生产和测试信息推断芯片的质量,例如晶圆上相邻芯片的结果、测试在哪台机器上运行、运行的软件版本以及运行测试的地理位置。这可能会产生令人印象深刻的结果,但同样存在固有的不准确性。”

事情甚至比这还要复杂。布鲁萨德说:“有很多非必要的因素会悄悄潜入,你的机器学习必须知道如何过滤掉它们。”“我们采取了不同的方法来缓解这种情况。通过从芯片内部提取重要的基本测量值,我们可以分析与其功率、性能和质量直接相关的信息。为此,我们在主机设计中添加了代理(ip),它直接从底层电子设备中获取最干净的信息,并将提取的数据输入我们的算法。通常,当基于多个数据源进行分析时,会有一个问题,即这些数据源是如何混合的,以及其中一个是否会增加偏差。在我们的案例中,由于我们分析的基础是真实数据,我们发现额外的数据源只会提高我们的准确性和洞察时间。”

不过,就像大多数涉及人工智能和机器学习的事情一样,如果你不去寻找,所有这些偏差都很难跟踪和识别。它们可能会导致性能不佳、意外或错误的结果,或者在某些情况下,可能需要几个月或几年才能显示出整体芯片故障。

“我们使用的短语是无声的数据破坏,”Dennis Ciplickas说PDF的解决方案.“你认为你有一个工作芯片,但它产生了错误的结果。这是邪恶的。当这种情况发生时,你不知道你正在产生坏数据,你就会很尴尬。”

数据收集的挑战
到处都是传感器,这意味着产生的数据比过去多得多。现在的挑战是更好地利用这些数据,这些数据是人工智能爆炸式增长的原材料。

这涉及许多行业和垂直市场,潜在的问题就像人工智能本身的应用一样多种多样。在半导体制造,数据被用于改进各种流程。考虑相相轮廓术,例如,通过分割光束照射模具或包装表面,使被检查的表面可以与参考镜进行比较。这种技术在发现可能影响产量和可靠性的异常时至关重要,它会产生大量需要进行关联的数据。

“这只适用于有能力、有用的数据,”ibm的计算机视觉工程经理约翰•霍夫曼(John Hoffman)表示CyberOptics.“算法团队的工作是查看图像并了解何时存在图像损坏。挑战在于并非每个表面都是弥漫的。有些是闪亮的。当你分析数据时,镜面区域有时会打破基本的物理假设。”

在这种情况下,数据来自多个摄像头。在芯片工厂的其他制造步骤中,这些传感器可能会收集从温度读数到振动和噪声的所有信息。但并不是所有的数据都是一致的,而且随着时间的推移,检测数据的变化是很困难的,因为它是在多个阶段组合和处理的,这增加了制造业从未见过的数据复杂性水平。

“在过去,人们可以获得更多的数据,他们可以从更多的来源收集数据,”该公司副总裁兼总经理Doug Elder说OptimalPlus.“你可以从测试人员那里获得大量之前从未整合过的数据,你可以对上游进行调整。测试人员是一个大数据源,生产中的每一步也是如此。你可以对这些数据进行分析。”

埃尔德说,最近这些数据的质量有了很大的改善。关键是在正确的地方收集数据,而这可能因制造工艺、工厂甚至时间的不同而有所不同。它包括了解如何以及在哪里使用这些数据,并应用领域专业知识来提取相关内容,并检查偏见是否已经渗透到过程中。

埃尔德说:“挑战在于不断监测数据是如何从这些过程中提取出来的。“这不仅仅是焊料温度的问题。这是关于所有的参数。”

识别数据转移
数据分区,无论是发生在设备上,内部数据中心,还是在云中,都使得跟踪数据的微妙变化变得更加困难。距离数据源越远,重建数据可能出现偏差的位置所需的工作就越多。

一种解决方案是为这些数据建立一个反馈循环,这样当检测到变化时,它们就会立即使用闭环系统反馈到制造过程中。这听起来很简单,但实际上比看起来要难,因为制造过程和设备处于不断变化的状态。

埃尔德说:“这些数据只能和你使用的相机或其他传感器一样好。”“就像这样5克技术,有些东西必须被推到系统级别,而不是在过程的早期被检测到。但如果你在之后收集数据,你可以得出结论,并将其引入到过程中。正在制造的技术已经通过了制造过程,你可以看到它在系统中的表现。然后,如果你有一个返回的天线或模块,你可以得出结论,为什么它失败了,你可以找出你可以做些什么来进一步收集数据。”

这是前沿数据分析今天。挑战在于能够将不同类型的数据融合在一起,并理解所有这些数据。

“在更复杂的系统中,你需要了解哪些是产品线的关键数据,并了解它们之间的不同关系,”yieldHUB的Robinson说。“你需要将变化相互关联起来,以确定偏差的变化。这就是机器学习打开了一扇门,以一种不同的方式看待大量数据。这是机器学习的一个很好的应用。我们已经看到客户为物理实验制作传感器,他们试图从传感器中去除噪声,这是出发点。噪音传感器的偏差会影响准确度。但他们发现,随着对这一点的更好理解,他们可能不需要使用整个传感器阵列。也许有一个地方噪音比较小。一旦在数据库中获得了该阵列的所有数据,就可以找出传感器阵列的哪个部分实际上工作得最好。如果你可以重新编程该设备,你可以使用传感器阵列的不同部分来做不同的事情。”

与此同时,设备制造商和原始设备制造商需要不断监控数据,以确保数据在可接受的参数范围内工作。苹果的决定限制旧款iphone的性能以防止意外关机,这是如何利用数据维护功能的一个例子。

但是锂离子电池的退化曲线是有据可查的。传感器老化的研究较少,部分原因是传感器更新,部分原因是这些传感器的数量不够多,无法进行广泛的市场研究。传感器在第一次制造时和几年后以及在不同的环境条件下可能会产生不同的结果。

“我们刚刚开始获得足够的历史数据来审查传感器的行为,”打印电子集成和运营总监Will Stone说布鲁尔科学.“通常传感器需要校准,然后重新校准,这包括所有传感器。你得到的数据量需要相互关联,你需要确定它是否正确地相互关联。这是否与传感器制造时的情况相同,这是一个持续的挑战。”

其中一些可以提前绑定,甚至在设备发布到市场之前。例如,许多组件并没有以其最大性能运行,以考虑随时间的变化。实际上,这就像在设备的生命周期内为设备的性能构建裕度,而不是允许它退化到较低的水平。

Tensilica公司的高级总监兼营销和业务开发主管Lazaar Louis说:“数据集肯定存在偏见。节奏.“我们的客户会考虑使用时长、使用条件以及预期寿命。所以他们设置了最大频率,并在它周围设置了界限。IP可能有能力做更多的事情,但他们需要把它放在一个盒子里,以满足要求。所以他们非常了解情况,可能会选择在较低的电压下运行。他们所做的是设计它以最佳的方式运行,我们在不同的设计点验证它。这些都是他们正在做的权衡。”

有时,这包括在设备在现场使用时添加在线监控,以确保这些设备保持在预计的工作参数范围内。如果对设备如何随着时间的推移而退化有足够的粒度,这对如何使用这类数据具有广泛的意义。

PDF的Ciplickas说:“这是一种很普通的数据中心统计数据,如果你看看运行所有这些处理器所需的总功率,你不可能为建筑物提供那么多的功率。”“所以他们只能以40%的速度运行,或者随便选几个百分点。我们面临的挑战是如何以最低的成本以最高的可靠性使数据中心尽可能长时间地运行下去?你可以在汽车上看到这一点。每一种感觉都有点不同。如果你以这种方式看待处理器,那么对于任何一项任务来说,哪种处理器是最好的,以及如何在此基础上平衡负载?”

结论
来自世界各地传感器的数据爆炸为提高效率提供了巨大的可能性,但也增加了误解数据准确性及其价值的重大新风险。此外,这种准确性会随着时间的推移而变化,而这些变化可能是无法检测到的,除非用户意识到他们应该在寻找什么。

这种偏差可能是非常微妙的,因为没有人参与其中,它产生的偏差足以立即或在很长一段时间内引起问题。我们面临的挑战是要知道它什么时候被扭曲,并解释这些变化。数据可用并不意味着数据就是好的,即使数据从一开始就是好的,也不意味着它会一直是好的。

有关的故事
人工智能知识中心
AI头条新闻,特别报道,技术和白皮书,博客和视频
脏数据:传感器故障吗?
为什么传感器数据需要清洗,以及为什么这对系统设计的各个方面都有广泛的影响。
数据混乱的边缘
处理器和数据类型的差异将对人工智能系统产生不可预测的影响。
大数据的巨大转变
为什么云计算和边缘计算的发展以及更多数据的处理将对半导体设计和制造产生深远的影响。
数据分析知识中心
关于数据分析的头条新闻、技术论文、白皮书、博客和视频



1评论

马克CAMENZIND 说:

对于光学传感器,包括激光粒子计数器,其他,光学或粒子的欺诈性,光沉积可导致光散射,漂移灵敏度和尺寸误差,随着时间的推移,灵敏度的损失。激光雷达也有类似的问题。你曾经需要清洁你的汽车挡风玻璃或窗户吗?一些传感器可以有内部排气,也可以雾霾/污染光学。GIGO =垃圾输入,垃圾输出,但如果你能保持干净,控制排气,你可以得到更好的,GIGO,良好的输入,良好的输出。空间、国防部、医疗、环境、过程控制应用程序的类似问题包括机器视觉。

留下回复


(注:此名称将公开显示)

Baidu