中文 英语

充分利用数据湖

为什么数据组织和设计良好的数据架构对于有效使用制造和设计数据至关重要?

受欢迎程度

拥有所有可用的半导体数据对于提高可制造性、良率,并最终提高终端设备的可靠性越来越必要。但是,如果不充分了解来自不同过程的数据之间的关系和计算效率高的数据结构,任何数据的价值都会大大降低。

在半导体行业,减少浪费、降低成本和提高产品质量继续推动芯片制造商改进设备、工艺和缺陷筛查。来自整个供应链的数据,特别是来自各种制造流程的数据,可以帮助工程师了解需要改进的地方以及如何改进。

这一直是数据优化和分析的承诺,在过去的二十年里,连接不同数据的前景一直在发展。连接数据有一个公认的好处,但要将其转换为可用的格式,还需要解决几个挑战——包括组织上充分的数据关系文档和计算优化的数据结构,以最大限度地减少数据移动。

减少数据移动的价值可能是两者中更容易理解的,从超大规模数据中心到自动驾驶汽车,所有事情都在处理这一问题。在不同的制造步骤中产生了太多的数据,在现场,试图将所有数据转移到一个位置。必须预先确定数据的优先级,以便可以根据数据将被使用的方式和地点对其进行分区。这需要理解如何使用、摄取、存储和消费数据。由于没有一个人具有设计所有这些部件的专业知识,这就更加困难了。

Joe Pong是公司,他指出,要想成功,需要从三个不同的来源获得投入:

  1. 最终用户(通常是工程师),项目的消费者,他们将为公司提供用例和指导。
  2. 数据科学家,他将帮助设计和探索通过复杂的统计图表处理数据的方法
  3. IT专家,负责设计和实施数据管道和计算架构,以确保项目的表现可接受,并保留足够的数据。

其他人则指出需要另外两种类型的专业知识。一个是领域专家,他理解并传达需要在数据中表示的领域上下文。第二个是知识工程师,他知道如何使上下文机器可读,以便所有相关的可用资源可以清晰而无歧义地集成。

在执行任何分析之前,需要以一种允许自动化和探索的方式捕获数据源之间的关系。这需要一个专家来记录各种数据源之间的关系,以支持后续的分析。

“所有这些数据都有不同的层次,你必须找到它们之间的关系,”at的首席技术官Andrzej Strojwas说PDF的解决方案.“例如,我可能会发现特定晶圆厂设备上的五个原位数据源与特定的内联测量非常相关。然后,这种内联测量将对特定IC的性能产生影响。在语义模型中,我想确保在每一层我们都有数据的表示,这将允许我建立各种数据集之间的关系。”

但是由于数据生成和存储在数据链的每个点上,将其组合成一个庞大的数据库既不实际也没有必要。熟悉的关系数据库体系结构的性能会因为工程目标选择分析的大量数据而受到限制。因此,工程团队了解各种数据类型之间的关系是至关重要的,以便以最小的存储和计算成本提取最大的价值。

数据分析平台来有效地使用所有这些数据,工程团队需要理解驱动哪些数据被提取来执行分析的用例。这反过来又决定了所使用的算法和在所选硬件上最大化计算性能所需的相关数据结构。

集成需要一个数据湖
数据管理和数据分析需要了解数据存储和数据计算选项,以设计最佳解决方案。半导体器件的设计和制造产生了大量的数据,这使得这变得更加困难。设备中添加了更多的传感器,更复杂的异构芯片架构,对可靠性的要求也越来越高——这反过来又增加了生成的模拟、检测、计量和测试数据的数量。

连接不同的数据源是非常有价值的。它允许对制造过程(包装类型,跳过老化)和反馈进行前馈决策,以跟踪偏差的原因(产量,质量和客户退货)。

图1:半导体的多个数据源。来源:PDF解决方案

图1:半导体的多个数据源。来源:PDF解决方案

PDF solutions人工智能解决方案副总裁Jeff David表示:“对半导体制造过程和整个关系的理解对于某些应用来说是至关重要的。“例如,我如何使用晶圆设备历史和工具传感器数据来预测芯片在最终测试中的失效倾向?流程和测试步骤之间的时间延迟如何确定哪些数据在查找失败模式的根本原因时有用?哪些数据集可以预测哪些故障模式?前面的流程步骤如何影响在给定流程步骤中收集的数据?”

由于需要在工程目标的上下文中理解权衡,这一事实变得复杂。David说:“数据集的领域专业知识和经验,无论是单独的还是作为一个集体团队,都将推动架构需求。”这溢出到正确地定义需求,这也将驱动架构决策。例如,为了有效地训练一个模型,我需要多少数据?我是否需要跨测试程序对数据进行分区,或者跨芯片产品进行分区足以满足我的需求?我需要多快才能做出有用的预测——1小时、1分钟还是10毫秒?”

数据模型和计算的关键指标之一是预测时间。智能制造产品经理Eli Roth表示:“我们正在探索使用收集到的数据的不同选择Teradyne.“例如,你如何实时执行某件事来做出实时决策?在某些情况下,它涉及到基本的数学,而在其他情况下,它涉及到CNN算法。但对于其他选择,我们也在研究可能在数据湖中运行的无监督算法。我们在大数据中寻找限制数据范围无法发现的趋势。”

通过内部电路测量,可以将数据链扩展到现场数据,从而提高工程师对系统性能的理解。

“从我的角度来看,我们现在说数据应该以一种特定的方式存储还为时过早。西门子EDA.“我倾向于采用通用格式。对于我们所看到的,它基本上可以归结为时间序列数据。当我们更多地了解如何在整个数据范围内使用它时——从工厂到现场——我们就会改进东西。当我们达到这一点时,我们将能够添加语义来指导分析。“有了这些数据,当这套规则应用于它时,你会得到这个。’或者,‘你把它当作这个元数据,这意味着你正在使用它的上下文中的其他东西。’”

但是为了有效地利用所有数据,还需要能够访问这些数据。此外,它需要灵活的组织来同时支持数据源之间已建立的关系并允许探索新的关系。这与传统数据仓库形成了鲜明对比,传统数据仓库的趋势是将所有数据以原生形式存储在数据湖中。

想象一个有多个数据流的数据湖。以本机格式存储并不意味着不需要干净可靠的数据。它也不需要存储相关的模式和元数据。数据湖包括结构化、半结构化和非结构化数据。

All in place也可以有不同的形式:

  • 单一数据湖;
  • 拥有多个数据池的数据湖;
  • 多个分散的数据湖以及
  • 虚拟数据湖,减少数据移动。

数据湖方法便于集成来自不同数据源的数据,因为它是一种读时模式数据框架。只提取分析所需的数据可以加快计算速度。此外,它不会让工程师和数据科学家只关注特定的组合。这是非常有用的,因为探索一组失败骰子和传递骰子的区别通常需要一个包含多个参数的大型数据集。

捕获数据关系
数据湖的吸引力在于读时模式,这使得了解可能的关系至关重要。否则,就会出现数据沼泽。多位行业专家指出,在不了解关系、上下文和元数据的情况下保存数据是不明智的。基本上,工程团队需要记录他们的数据模型在任何提取或计算之前。因此,每个团队都需要一个知识工程师和领域专家。

“仅仅将所有这些数据存储在数据湖中是不够的。需要一个语义模型来组合这些数据,”PDF solutions产品和解决方案执行副总裁Kimon Michaels在最近的一次研讨会上说。“我们需要了解数据之间的空间、时间和层次关系,这样高级分析才能应用于这些数据的不同组合,并将这些不同的数据转化为可操作的信息。”

在这一点上有越来越多的共识。“如果没有某种背景,数据就毫无价值,”独立数据技术顾问艾伦·莫里森(Alan Morrison)说。“数据不经常共享的原因是,环境是稀疏的,不是为有机地生存和发展而设计的。有多少次你看了别人的电子表格,却不知道它是关于什么的?至少,行和列没有得到充分的描述。一般来说,越不容易变质的数据,就越需要更好地描述它。描述逻辑和谓词逻辑需要包括集合论和图论。”

换句话说,没有地图的数据湖没有多大帮助。微软软件产品管理总监迈克•麦金太尔表示:“在不了解这些关系的情况下,把鱼钩扔进数据湖,就像说,我要把鱼钩扔进海里,试着钓一条鱼。上的创新.“如果我知道鱼在哪里繁殖,它们的迁徙路线和觅食地,我钓到鱼的几率就会大大提高。”

上下文是在生成点和互操作性点捕获的。

Aegis Software新兴产业战略高级总监迈克尔•福特(Michael Ford)表示:“问题是到哪里去找数据。”“我们不想让人们在干草堆里搜索。当你让人们在不同的系统和数据库中四处查找时,可能需要几个小时甚至几天才能找到东西。在我们的方法中,我们将其自动化。当我们把东西放在一起的时候,我们建立了情境化。通过这种背景化,数据已经得到了丰富。有一个定义本体在组织内部,这样我们就能准确地了解事物的位置,事物是如何相互关联的。”

图2:显示数据层的SLM分析平台。来源:Synopsys对此

图2:显示数据层的SLM分析平台。来源:Synopsys对此

所以这不仅仅是数据的问题。它需要一个数据架构来使这些数据有用。“我们有一个维护、开发和支持的数据库。然后,在数据摄取和我们可以配置的数据库之间,还有一个语义层。Synopsys对此.语义层是描述如何将各种数据映射到该数据库中数据模型的数据结构的文档。我们可以保持数据库相对固定,所以我们只需要改变数据摄取的语义,从而只加载特定的数据。”

存储数据关系的方法有无数种语义层.几语义技术帮助机器理解数据。

知识图可以是最有效和可扩展的构建和共享方式,这意味着通过创建交互环境,”Morrison说。“应用语义本身可以是为数据添加机器可读意义的任何方法。挑战在于扩展有意义的数据,以及使用足够的语义来实现你的目标。”

图3:深度学习算法下面是知识图和数据湖。资料来源:A. Meixner/Semiconductor Engineering

图3:深度学习算法下面是知识图和数据湖。资料来源:A. Meixner/Semiconductor Engineering

对用例了解得越多,就能更好地组织数据。

“我们的平台导入由嵌入式代理获得的数据,在设计过程中战略性地放置,并在云中或边缘提供高级分析。代理监控性能边际,应用应力,材料分布,电源电压和其他参数。通过在极高的覆盖范围内分布代理,并拥有理解和理解地图的ML数据结构,该算法可以提供对性能和可靠性的详细理解,具有跨阶段相关性,精确的RCA和有价值的预测,”Marc Hutner说proteanTecs.“这就是为什么如果没有有目的地设计数据结构,就很难进行分析。事后很难对测量结果进行回注。”

数据结构和计算
一旦数据从数据湖中提取出来,就需要将其存储在数据结构中进行计算。随着计算硬件选择越来越适合大数据应用,人们开始质疑最佳数据结构是什么。一个数据结构以比数据模式低得多的粒度定义数据组织。它直接影响计算机硬件的性能。有效地定义它需要从用户定义用例转向数据科学家和数据工程师,确定数据库中的最佳数据结构。

Onto公司的麦金太尔说:“在制造业中,了解设备和设施的人通常不了解更大的数据结构,更重要的是不了解如何使用这些信息来了解工厂的整体行为。”“这一空缺由精通操作和方法的其他人填补。此外,仅仅因为一个人了解自动化和数据结构,并不一定意味着他们在分析方面有足够的知识或专业知识,这些知识必须附加到这些数据结构上,以使其有效。”

图4:数据组织的层次。资料来源:A. Meixner/半导体工程

图4:数据组织的层次。资料来源:A. Meixner/半导体工程

数据结构定义了数据组织、可选索引和指定基本操作(存储、访问和更新)的算法。在数据结构周期表,作者指出,“……数据分析管道实际上是处理日益增长的数据量的复杂算法的集合。总的来说,数据结构是计算机科学和广义数据科学最基本的组成部分之一。它们是所有子领域的核心,包括数据分析和执行分析所需的工具和基础设施,从数据系统(关系、NoSQL、图形)、编译器和网络,到机器学习模型的存储,以及几乎任何处理数据的临时程序。”

数据结构可以针对读、写或空间进行优化。常用的数据结构包括数组、列表、排序列表、二叉树、多路树和哈希表。对于读取密集型工作负载,数据科学家通常选择二叉树。他们喜欢写密集的工作负荷LSM-trees.虽然哈希表可能足以跟踪产品的设备谱系,但不同的数据结构可能更适合训练深度学习网络。

更大的数据集促使工程团队重新思考数据在哪里被处理,以及是否将部分处理转移到内存中。原因是计算速度的增长快于数据移动的速度。优化性能需要减少移动大块数据引起的延迟,以及在数据结构级别评估算法对数据移动的影响。

正如Hutner所指出的,“数据组织是算法高效工作的一个关键方面。在设计算法时,首先要考虑我们想要解决的问题类型,然后才是数据结构。”

作者写道:“一个现成的数据结构适合这种任意的、有时不可预测的数据访问模式的可能性接近于零,然而,随着数据增长,数据移动是主要的瓶颈,我们确实需要更多的数据来从数据分析中提取价值。数据结构周期表

数据专家同意这一观点。Pong说:“Amkor尝试了一些内置大数据解决方案/平台,如Hadoop/Casandra/Mongo DB,但这些都无法满足数据科学家对速度和可扩展性的期望。”“因此,我们采用了基于云的大数据解决方案,包括云原生数据收集和api,以实现实时数据处理和可伸缩性,而不会受到基础设施限制的延迟。”

其他人报告了类似的优化路径。Synopsys的Simon表示:“我们的领域专家与数据架构师密切合作,以确保我们的数据模型的设计方式能够为特定的用例实现最佳性能。”“如果数据模型和语义不正确,那么性能就会变慢。一个好的分析系统的价值不在于UI,而在于支持将数据对齐并映射到正确执行的数据模型的语义。”

结论
大量的数据可以用于半导体设计、制造工艺和现场水平的几乎任何东西。利用所有这些数据继续激励供应商公司为客户提供解决方案。对于公司来说,要有效地使用数据解决方案,他们需要通过已建立的报告来支持日常工程监督,并在这个多参数空间中进行探测工作,以理解可能的见解。

“如果问题足够大,你不会只是试图淘汰坏设备,而是会让一群工程师来解决它,”苹果公司应用研究和技术副总裁Ira Leventhal说美国效果显著.“但我们再也不能奢侈地等待了。从一开始就处理这些问题是非常重要的。这就是我们看到很多潜力的地方,就把所有这些数据都放在ACS基础设施的云端,并能够在这些数据中找到人类无法找出的相关性和关系。事情太复杂了,对于一个人查看数据并说“是的,这就是问题所在”的典型路径来说。’这些问题往往是多方面的,本质上非常复杂。”

要有效地使用数据湖执行,需要记录数据关系,以利用数据并设计有效的数据结构,以满足分析和时间-性能目标。

有关的故事
基础设施影响数据分析
收集制造数据只是问题的一部分。有效地管理这些数据对于机器学习的分析和应用至关重要。

Fab和测试数据太多,利用率低
目前,收集到的数据的增长已经超过了工程师分析所有数据的能力。

数据中心服务器架构变更
共享资源可以显著提高利用率和降低成本,但这不是一个简单的转变。

系统设计将发生翻天覆地的变化
随着应用程序日益多样化,对更快处理的需求促使计算模型变得非常不同。

转向数据驱动的芯片架构
重新思考如何提高半导体的性能和降低功耗。

内存处理工作吗?
绕过冯·诺依曼架构的改变可能是低功耗ML硬件的关键。

引用:
数据结构周期表



留下回复


(注:此名称将公开显示)

Baidu