获得足够的数据,为工业流程训练有用的人工智能模型。
德克·梅尔和乌尔夫·韦茨克著
现在,工业工厂和流程已实现数字化和网络化,人工智能可用于评估这些设施产生的数据,以提高生产率和质量。
机器学习(ML)方法可以应用于:
一些最流行的机器学习应用程序是基于智能手机用户数据或来自互联网的数据源(社交网络,维基百科,图像数据库等)。对于后者,使用非常大的训练数据集,例如,大约45 TB的文本数据用于训练OpenAI GPT-3[1]。
真正的工业应用程序利用的数据集要小得多。这使得训练高性能ML模型并因此充分利用潜在的附加价值变得困难。由于以下原因,数据集往往不完整:
这些不完整的数据集直接导致过度拟合的AI模型和缺乏泛化。同时,涵盖所有可能变化的测量活动在经济上是不可行的。
为了克服这些问题,必须清理和扩充不足的数据集。
在工业过程中,来自时间序列的数据起着特别重要的作用(例如,传感器数据,工艺参数,日志文件,通信协议)。它们有非常不同的时间分辨率——温度传感器可能每分钟传递一个值,而无线网络的光谱分析需要每秒超过1亿个样本。
目标是反映过程的所有相关状态和由于增强时间序列内的随机效应的不确定性。为了给工业过程的测量时间序列增加额外的值,深入了解过程是有益的。这种物理背景的表示可以称为模型.在模型构建方面,可以分为以下几个层次:
这允许我们为基于模型的数据生成派生策略。为了为AI模型的训练生成更长的、更合适的时间序列,所描述的策略应该以特定于应用的方式组合:
在图像处理领域,数据的增强可能直观上更容易。相比之下,时间序列的增广大多需要对底层过程的理解。根据先验知识的深度,可以使用基于模型和合成的数据。扩展数据的最佳策略通常遵循经济方面的考虑。根据问题的不同,收集一组完整的测量数据,或者生成有物理意义的模型,成本可能非常高。在工业实践中,人们将主要使用来自“灰盒”类别的方法,进行有限的实验和分析工作。
跨学科方法的有趣观点也出现了。时间序列可以在完全不同的过程中找到,甚至在技术和工业之外。底层过程完全不同,但时间序列的特征非常相似。下图显示了两个时间序列,由于值的振荡,它们有一定的相似性。然而,它们是由完全不同的过程产生的。左边显示的是太阳活动的周期振荡(周期约为10年,x轴为1700年,采样率为1年[2])。右边是一个人的心电图,周期约为。1s,采样率1/300s[3])。这为跨领域转移方法提供了可能性,例如,通过使用复杂的语音和文本处理模型来进行医疗领域[4]的数据增强。
为了实现训练模型性能的持续提高,有必要将人类对该过程的知识纳入其中。来自人在循环ML领域的方法,如主动学习,提供了从黑盒方法转移到灰盒模型的选项。
目前,还没有系统的方法或简单的工具用于工业应用,以一种有意义的方式组合上述方法,以实现有效的数据增强。这是目前研究的课题。
参考文献
[1]https://www.springboard.com/blog/ai-machine-learning/machine-learning-gpt-3-open-ai/
[2]https://wwwbis.sidc.be/silso/datafiles#total
[3]里。A: Entwicklung eines系统zur Erfassung affektiver Zustände auf der Grundlage von Vitalparametersensordaten,硕士论文,开姆尼茨大学,2021年7月。
[4]伯德,J. J.,普里查德,M.,弗拉蒂尼,A.,埃卡特,A.和法里亚,D. R.(2021)。GPT-2合成生物信号机通过数据增强提高脑电信号和肌电信号的分类。机械工程学报,26(2),457 - 457。https://doi.org/10.1109/LRA.2021.3056355
Ulf Wetzker是Fraunhofer IIS EAS工业无线通信工作组的成员。
留下回复