中文 英语
18.luck新利
的意见

利用基于模型的方法增强人工智能数据集

获得足够的数据,为工业流程训练有用的人工智能模型。

受欢迎程度

德克·梅尔和乌尔夫·韦茨克著

现在,工业工厂和流程已实现数字化和网络化,人工智能可用于评估这些设施产生的数据,以提高生产率和质量。

机器学习(ML)方法可以应用于:

  • 复杂生产过程中的产品质量分类。
  • 技术系统的状态监测,例如,用于驱动系统、生产工厂的诊断,以及关键自动化组件的无线通信。
  • 传感器数据或过程信息中的异常检测。及早启动对策可以减少系统故障。
  • 基于先前测量的结果或事件的预测。
  • 优化生产工艺,兼顾物料流动。
  • 智能机器人系统的训练。

一些最流行的机器学习应用程序是基于智能手机用户数据或来自互联网的数据源(社交网络,维基百科,图像数据库等)。对于后者,使用非常大的训练数据集,例如,大约45 TB的文本数据用于训练OpenAI GPT-3[1]。

真正的工业应用程序利用的数据集要小得多。这使得训练高性能ML模型并因此充分利用潜在的附加价值变得困难。由于以下原因,数据集往往不完整:

  • 在工业测量活动中,通常不可能全面监控需要分类的所有重要条件。这尤其适用于来自系统故障或缺陷的数据。
  • 通常不可能收集机器模型的所有单元的数据,因此机械或电子差异和环境影响(例如,温度波动)没有反映在数据中。
  • 数据通常被数字化、过滤和压缩,因此信息会丢失。
  • 因此,数据也没有被完全标记,即分配到稍后分类的状态。

这些不完整的数据集直接导致过度拟合的AI模型和缺乏泛化。同时,涵盖所有可能变化的测量活动在经济上是不可行的。

解决方案

为了克服这些问题,必须清理和扩充不足的数据集。

在工业过程中,来自时间序列的数据起着特别重要的作用(例如,传感器数据,工艺参数日志文件,通信协议)。它们有非常不同的时间分辨率——温度传感器可能每分钟传递一个值,而无线网络的光谱分析需要每秒超过1亿个样本。

目标是反映过程的所有相关状态和由于增强时间序列内的随机效应的不确定性。为了给工业过程的测量时间序列增加额外的值,深入了解过程是有益的。这种物理背景的表示可以称为模型.在模型构建方面,可以分为以下几个层次:

这允许我们为基于模型的数据生成派生策略。为了为AI模型的训练生成更长的、更合适的时间序列,所描述的策略应该以特定于应用的方式组合:

  • 黑盒.无监督学习可以用来生成人工时间序列。这就产生了新的、“相似”的数据段,而无需对波形进行更深层次的物理理解。然而,需要相对大量的数据,并且各部分之间的关系并不是物理上的。
  • 灰色的盒子.从物理理解中生成时间序列的剖面,例如,与属于相关类别的某些模式叠加或测量时间序列的失真。这需要大量的测量,并基本了解哪些波形被分配给哪些状态或类别。
  • 白盒子.从系统模拟生成时间序列,理论上不需要任何测量。然而,在现实中,完全白色(“白雪”)模型通常是不可能的,因为参数必须始终与现实相匹配。

在图像处理领域,数据的增强可能直观上更容易。相比之下,时间序列的增广大多需要对底层过程的理解。根据先验知识的深度,可以使用基于模型和合成的数据。扩展数据的最佳策略通常遵循经济方面的考虑。根据问题的不同,收集一组完整的测量数据,或者生成有物理意义的模型,成本可能非常高。在工业实践中,人们将主要使用来自“灰盒”类别的方法,进行有限的实验和分析工作。

跨学科方法的有趣观点也出现了。时间序列可以在完全不同的过程中找到,甚至在技术和工业之外。底层过程完全不同,但时间序列的特征非常相似。下图显示了两个时间序列,由于值的振荡,它们有一定的相似性。然而,它们是由完全不同的过程产生的。左边显示的是太阳活动的周期振荡(周期约为10年,x轴为1700年,采样率为1年[2])。右边是一个人的心电图,周期约为。1s,采样率1/300s[3])。这为跨领域转移方法提供了可能性,例如,通过使用复杂的语音和文本处理模型来进行医疗领域[4]的数据增强。

为了实现训练模型性能的持续提高,有必要将人类对该过程的知识纳入其中。来自人在循环ML领域的方法,如主动学习,提供了从黑盒方法转移到灰盒模型的选项。

目前,还没有系统的方法或简单的工具用于工业应用,以一种有意义的方式组合上述方法,以实现有效的数据增强。这是目前研究的课题。

参考文献

[1]https://www.springboard.com/blog/ai-machine-learning/machine-learning-gpt-3-open-ai/

[2]https://wwwbis.sidc.be/silso/datafiles#total

[3]里。A: Entwicklung eines系统zur Erfassung affektiver Zustände auf der Grundlage von Vitalparametersensordaten,硕士论文,开姆尼茨大学,2021年7月。

[4]伯德,J. J.,普里查德,M.,弗拉蒂尼,A.,埃卡特,A.和法里亚,D. R.(2021)。GPT-2合成生物信号机通过数据增强提高脑电信号和肌电信号的分类。机械工程学报,26(2),457 - 457。https://doi.org/10.1109/LRA.2021.3056355

Ulf Wetzker是Fraunhofer IIS EAS工业无线通信工作组的成员。



留下回复


(注:此名称将公开显示)

Baidu