中文 英语

脏数据:传感器故障吗?

为什么需要清洁传感器数据,为什么,对系统设计的各个方面产生广泛影响。

受欢迎程度

传感器提供一个了不起的连接物理世界,但提取有用的数据并不是那么简单。事实上,许多首次物联网设计师们准备如何混乱的一个传感器的数据。

每一天的物联网运动传感公司MbientLab斗争巧妙地告诉客户,他们看到的是堆积如山的数据不是因为传感器故障。相反,这些传感器系统设计包含数据清洗过程中缺少一些关键的一步。

说:“我每天都战斗MbientLab劳拉Kassovic的首席执行官最近的演讲中,警告工程师培训物联网这套机器学习的难度。工具和硬件改善了多年来,但基本的了解来处理数据仍然是落后的,她说。

“我为用户试图使用传感器来解决问题和研究复杂的主题,”她说。“这是勇敢,很有趣,是野生的,很难。我的问题是那些把他们的失败归咎于我们的传感器,而不是他们的方法,未能解决真正的问题。传感器不会说谎。传感器没有偏见。传感器数据总是正确的。只有用户可以误用或误解传感器数据。”

传感器然而,并不总是容易使用。并不是所有的由传感器生成的数据是有价值的。关键是要找出真正的价值在哪里,并分离出数据和丢弃。

说:“大多数感应是非常便宜的阿尔特·德·Geus董事长兼联合首席执行官Synopsys对此。“有一些例外,比如人工眼睛。但有些也属于人工智能分类,比如手表,拿起各种各样的测量。你能获得什么样的见解呢?你能预测心脏病发作吗?如果可以的话,这是非常高的价值。那么你会付多少?如果你有一分钟,你可以写下'谢谢你'你的妻子的。如果你有一个小时,你可以叫救护直升机。如果你有几个小时,价值和风险变化了。”

在许多应用程序中数据有多种形式。什么是干净的在一个案例中比在另一个应用程序可能需要更多的工作。和一些本地这是可以做到的,而其他数据可以清洗在数据中心。

“假设你有一个面部识别程序,只有某些员工被允许进入这个大楼,”de Geus说。“你每个月更新的人工智能网络边缘设备和最新的所有的脸上。它可以做很多工作,因为有很多人进来,但并不是所有的更新。”

在其他情况下,实时数据可能需要擦洗。狮子的悲剧例子空难的新波音最大8架飞机,10月29日杀死了所有上,可能会走向“传感器”类别。黑盒恢复飞行显示不一致的两个攻角(AOA)的数据从一个传感器。一半的数据显然是不正确的,这是足以引发这个平面anti-stall系统变成一个俯冲作用,该飞行员摔跤到爪哇海。

太过早到底发生了什么。“这不仅仅是一个传感器。这个系统有多个方面,”主任Mahesh Chowdhary说意法半导体的战略平台和物联网卓越中心。“有传感部分、连接部分,然后计算部分。有一些算法,看着传感器数据,确定飞机的方向是什么。多个特性必须合作和谐和同步提供信息的方向的飞机。”

但是不是所有的数据是好的,甚至被认为是有价值的数据可能损坏或不准确的。看似简单的物联网系统的一个更大的安全性至关重要的系统,当传感器系统设计失败,data-especially脏数据通常是罪魁祸首吗?和你怎么知道传感器或数据是坏的?或者是算法的逻辑或读取的固件和行为数据错误?它首先帮助同意什么是脏数据。

“这是一个模糊的区域。传感器工作对吗?嗯,是的它是但不是你预期的方式工作。所以,用户错误还是传感器错误吗?我发现脏数据的整个概念非常模糊,因为如果你得到传感器正常工作,用户不按照预定的计划,”Robert Pohlen说TT电子产品线总监,公司设计传感器和帮助客户创建各种传感器系统。

数据处理的路径
理解数据是干净和脏的区别,重要的是要了解如何从A点到B点的数据。

说,来自传感器的数据进行后处理是一个保守的说法。基本传感器能量的一种形式转换到另一个,有或没有帮助从外部力量,创造一个模拟或数字信号。原始转换来自真实世界的模拟信号听起来,光、温度、磁场力,压力,等等。一路走来,是否在传感器或印刷电路板,模拟信号得到conditioned-or放大如果必要的转换为数字信号。之后,数据通常被发送到一个微芯片或其他处理器通过算法来进一步过滤清洁噪声和提取相关信息的一个有用的形式。

计算架构刚刚开始面对这种数据的方法,有些数据需要预处理在边缘,而其他数据可以送到更强大的服务器来清理。

“边缘计算将是一个很大的游戏,”罗伯特·布莱克说,总裁兼首席执行官Achronix。“基本面都在那。我们知道所有的基本构建块。我们需要弄清楚如何有效地移动数据在任何格式,注意你如何移动数据的内存层次结构的最小距离计算。这些是最基本的如何获取更多的有效计算。”

提取数据的关键,需要立即采取行动的数据可能被用来识别趋势随着时间的推移,和删除数据,没有价值。这是更加困难当你考虑有许多不同类型的数据,并在某些情况下,多个数据类型可能需要在物质世界或形成一个结论是否有人会遭受医疗紧急情况。

最终数据也可以开始清洁和脏,通过更新或病毒。”在全球范围内,所有的组件都需要尽可能的安全,所以你想建立信任从硬件,”海伦娜Handschuh说Rambus的家伙。“一旦你安全启动、通讯数据已经有了一些信任。但也有不安全的,未知的组件,并要求入侵检测和软件分析大数据集。让你看看什么已经损坏。在汽车的场景中,你想要检测哪一部分是给你异常或奇怪的数据。这是一个安全问题,但它也是一个安全问题。”

脏数据需要解决,但是在哪里以及如何变得肮脏的确定需要采取行动。如果传感器本身产生肮脏的原始数据,设计师需要从一开始就考虑。“解决传感器问题需要大量的专业知识,“Kassovic说。“这需要知识的传感器在硬件层面,了解数据从传感器和经验中提取软件(算法)的发展。”

例如,不要把数据从一个加速度计和GPS的数据。“一个只加速度计测量加速度的身体,”她说。“最不能理解的是,什么是不能代替一个GPS,它输出的身体空间的绝对位置。每一个应用程序是独特的,它需要一个独特的大多数最佳提取正确的度量方法。我总是困惑的用户认为来自传感器的数据应该看起来像他们的大学教科书。真实的传感器数据是不完美的。当你打开你的物理学、工程学、计算机科学教科书,它充斥着完美的身体曲线运动。当你把真实世界的数据,同样的曲线看起来完全不同。在现实世界中有噪声和错误。”

每一个应用程序是独特的,它需要一个独特的大多数最佳提取正确的度量方法。

理解数据
那么你究竟是怎么处理脏数据?第一步是理解和解释一个传感器的输出。传感器数据往往是相对而不是绝对,和传感器读数在现实世界中并不总是完美的。

传感器制造商看到基本问题和噪音,过滤器和算法和它们提供帮助的工具。一些系统设计师和平台供应商对用户的系统处理数据可以看到有效的填充他们的数据库的数据不正确。他们提供警惕和工具来帮助。

“我看到脏数据在模拟方面,而不是数字。脏数据噪声数据。噪音将是我最大的问题,”说TT电子Pohlen。“噪音可以诱导从许多不同的来源。你可以只有的电噪音从你的线束或造成组件坏。”

噪音由于某种外部影响实际传感机制不是脏数据,在Pohlen的眼睛。例如,“你知道,这是一个光传感器和你有一个环境光源。我不认为脏数据,因为那不是真正的你想测量但测量正确。”

未校准的传感器产生更多比校准的脏数据。“与原始传感器数据计算,不是校准通常是脏数据本质上是指,甚至有很大的噪音,“圣的Chowdhary说。“除了物理传感器的一部分使用一些现象,比如测量科里奥利加速度检测旋转装置,旋转的用户,或旋转手机,信号调节模块。这些信号调节模块运行在低功耗模式下,不同条件,设计师的目的是减少当前消费的传感器,如果您可以使用块。如果你这样做,噪声对传感器数据的移动,因为你适用于信号调节的更多权力,清洁你的数据。

“考虑到这些不同的方面,脏数据是没有校准传感器数据,传感器数据被输入噪声的影响,噪声是否由于纯粹的信号调节块或从外部障碍,“Chowdhary说。他把外部障碍,如当一个磁力仪受到外部磁场的影响,在脏数据类别。“你知道这些数据都可以成群在一起,归类为脏数据。”

即使在一批传感器,传感器可以从制造业有变化和问题。一旦在这一领域,传感器可以损坏或堵塞。一个地勤人员会损坏一架飞机的传感器,甚至AOA传感器。部分可以变坏或磨损。传感器需要重新调整。

从企业的角度试图理解数据,“在传感器设备网络,脏数据可以一个或多个问题的产物。造成的问题可以但不限于时间序列圈,传感器测量单元、日期/时间校准,不恰当的关联的传感器,不当聚合跨区域的数据点,等。产生脏数据也可以简单数据不满足业务目标,因此不稳定或不可用或无效。Pratik帕里克说,说产品营销主管联络技术,一个公司,帮助把可用的数据平台为企业使用。

其他特定术语的定义。“脏数据格式良好的数据报告的设备,在某种程度上是无效的。它不会立即得到标记为垃圾,我们甚至无法解释,”詹姆斯站说,明亮的狼的创始人,一个物联网系统集成商。“你完全可以读它,但你发现在某种程度上,这些数据实际上是完全无效的。”

IIoT物联网,脏数据的风险湖污染公司的数据和其他高风险的行为。也浪费了钱。”这是一个问题的原因是在这些物联网系统中,当你寻找数据的价值,你使编程分析,运行在这些传入的数据值,你将这些分析输出连接到您的企业系统在某种程度上,“站。“有一些有趣的事件会发生这一切的输出。如果你坏assumptions-dirty数据基地,有趣的事件,在你进入经典的垃圾,垃圾。脏数据会让你真正伤害你在哪里开始产生真正的经济成本,因为这些自动化的行为被数据实际上不是开始无效。”

站看到三个脏数据的问题。“一、传感器没有什么毛病。环境已经改变或传感器有一个错误,它不能检测本身,而且它给你格式良好的,但完全垃圾数据。“下一个类别包含固件是否在设备上运行的软件缺陷。甚至新版本的固件”会导致不同的问题报告的格式良好的数据是完全错误的。第三类,这是邪恶的,是需要非常特定的机器操作的知识,以了解如何解释的数据。没有知识你可能解释数据包有效,当系统的其他部分没有打算解释。”

那么脏数据不清晰吗?也许这个词太一般有用吗?

帮忙打扫家务
有许多工具可以帮助清洁数据。“有这么多伟大的工具。Matlab、虚拟仪器和Python是最受欢迎的。我们自己MetaWear api支持所有主要的编码语言过滤器。我通常建议用户使用他们最熟悉的工具。Python是一种很好的工具,因为它有许多可用机器学习库是开源的,易于使用,良好的文档记录,“MbientLab的Kassovic说。MbientLab还使用博世的FusionLab提供博世传感器连同自己的。

Bosch-Sensortec,这也为他们提供了驱动程序和库传感器,希望传感器系统检测,解释,监视、环境感知和预测的目的,Marcellino Gemelli,谁负责博世的业务发展Sensortec MEMS产品组合。圣提供图书馆、驱动程序和工具设置传感器,以及微控制器能够帮助简化设计。

找到合适的人以正确的专业知识大有帮助。“今天我坚信的是你不能发送一个软件工程师做一个固件工程师的工作,“Kassovic说。

在企业方面,有一个循环清洗数据中的数据科学家将太多的时间。“用机器生成数据,全新的污秽类可能发生超出人类生成的数据。这是真正的焦点需要清洁你的脏数据,“站说。“有很多大数据清洗工具在大数据市场,但是这些都是围绕着数据的科学家。你会得到一个相当静态的数据集,您需要去清洁它,你需要去分析它去寻找一些有趣的事情。这种方法非常适用于人类生成数据。机器的速度生成数据,这种方法没有规模。这甚至不是可能的。你拥有这些摄取系统,从现场反馈装置,流分析他们然后连接这些输出到一些企业系统自动动作发生。”

移动数字可能会有所帮助。“朝着数字通信绝对有帮助。一切被认为像sensor-you假设传感器越来越好数据和数据收集,嘈杂的由于模拟吗?我看到了自然趋势将走向数字你可以内置的错误检查。有一些噪声在数字系统的空间。如果这噪音线,谁在乎真的因为它是高或低,然后你有一些错误检查。如果是这样的话,你可以把数据,”Pohlen说。

“虽然原始数据可能是过滤、补偿和修正,在大多数情况下有明确的限制一个用户能做什么,”马Gemelli写道,负责业务Bosch-Sensortec MEMS产品组合的发展在最近的一篇文章中。

“克服这些挑战的第一步是实现和集成的卫生工具,“说联络技术帕里克说。“这些卫生工具不仅要处理的质量数据也验证身份,信任,时间序列,每个数据点从项目的角度。每个项目都有独特的要求。项目实施者可以而且应该使用常见的技术特性,但必须准备好做大规模定制,以实现业务目标。”

联络技术提供了数据清理、过滤、管理和重复数据删除检测。“我们提供的一个关键特性是数据沿袭的跟踪,我们可以追踪数据的原始介绍洁净结构化格式。客户可以跟踪和监控数据沿袭和如果需要连接后可以回放数据做适当的更改业务逻辑。”

冗余可能是好的,但昂贵的安全关键系统的解决方案。“每个人都想获得一个更高的ASIL评级,但他们一定要承诺有更多的感知?”TT电子Pohlen说。”,所有这一切都归结到这可能是正确的数据,这可能是不正确的数据,但在后端,你如何解释这些数据。除非你有某种自我诊断传感器内,最好的方法是冗余。”

埃德·斯珀林对此报道亦有贡献。

有关的故事
安全对MEMS传感器
安全是一个不断发展的问题和无处不在的MEMS传感器。
数据与物理
激增的数据几乎无处不在的传感器阵列正在改变的动力在哪里以及如何处理这些数据



2的评论

马丁Maschmann 说:

什么坏主意是运行“俯冲”过程后一双失速检测仅基于单一传感器。
显然其他传感器没有咨询,如人工地平线,高度,陀螺,等等。

这已经不是第一次,一个传感器失败原因
> 100人死亡,所以怎么能再次发生吗?

医生 说:

我可能在人潮,但看到这个词数据是分散不断用作单数。

数据是复数。

基准面是单数。

留下一个回复


(注意:这个名字会显示公开)

Baidu