基础设施影响数据分析

收集制造数据只是问题的一部分。有效地管理这些数据对于机器学习的分析和应用至关重要。

2020年12月8日-由:安妮Meixner

半导体数据分析依赖于来自制造过程的及时、无错误的数据，但是交付这些数据所需的IT基础设施投资和工程工作是昂贵的、巨大的，并且仍在增长。

随着设备制造商在他们的工具中添加更多的传感器，以及监控器嵌入到芯片中，数据生成的各个阶段的数据量都在激增。产生的数据要么需要被清理，要么需要被丢弃(通常是两者中的一部分)，以便了解该数据的价值。

在高级封装的情况下，在一个封装中有多个芯片，这是一个具有持久影响的复杂决定。

“最大的变化是对数据增长的管理，”安科自动化团队成员DeukYong Yun说公司．“我们看到过去6个月产生的数据比过去15年产生的数据还要多。主要驱动因素是单元级可追溯性和实时设备参数数据，因为IC设计变得更加复杂，需要广泛的细节级数据来进行质量控制。”

大多数大数据讨论集中在人工智能/机器学习(毫升)。但是如果没有工程师构建数据管道，协调竖井之间的数据，并保证数据完整性，那么ML应用程序就毫无价值。

在工程师利用半导体制造步骤生成的数据之前，数据需要从源传输到可访问的数据库。在整个供应链中，有支持数据管理的IT基础设施网络和集群。如果没有强大的数据管理系统，我们几乎不可能想象一个简单的最终测试失败。过时的基础设施阻碍了对产量和质量问题的迅速反应。数据传输中的泄漏可能导致丢失、不对齐和不准确的数据。这样的数据完整性问题会打断常规报告的节奏，同时误导工程团队的注意力。

微软软件产品管理总监迈克•麦金太尔(Mike McIntyre)表示:“如今，许多公司仍然认为，为了提高一线数据用户的效率，数据管理需要孤立起来。上的创新．“许多公司继续将数据和数据保留视为最小化的成本。因此，他们把数据放在最便宜的存储库和数据层次结构中。”

这种数据管理风格影响了在制造步骤之间连接数据的能力。因此，有一种趋势是将数据竖井连接到集中式结构中。

Silicon Lifecycle management的分析总监保罗•西蒙(Paul Simon)表示:“目前存在着向集中式数据管理和高数据质量发展的强大动力。Synopsys对此．“我们看到的不仅是更高的数据量。我们看到了更多的数据类型和更广泛的数据收集。”

支持数据集中所必需的IT基础设施包括硬件和软件组件。硬件在生成点和工程访问点之间存储、处理和移动数据。该软件用于监控、管理和保护这些数据。

建设基础设施的成本是显而易见的。维护它往往是一种无形的成本，常常被忽视。

“你构建的每一个系统，你开发的每一段代码，以及所有开始使用它的人，都会产生技术债务，”微软的研究员迈克尔•舒登弗雷(Michael Schuldenfrei)表示国家仪器．“而且，人们严重低估了建立或维护这些系统所需要的努力。”

大数据管理设计
随着所有这些向集中化的驱动，半导体公司需要积极关注他们的数据管理和支持基础设施。

“数据管理的所有方面——数据生成、数据摄取、数据存储和数据消费——都必须在设计阶段考虑到，并且必须是领域驱动的，”raao Desineni强调，该公司负责制造和运营的分析总监英特尔．

领域驱动知识的影响远不止数据库存储框架。在选择存储数据的硬件解决方案时，需要考虑以一种方便后续数据请求和分析的方式来支持工程目标。

“您将使用哪种模式数据库模式来描述这些数据?”Schuldenfrei问道。“你将如何构建加载数据的流程?”为了解决您想要解决的用例，您需要从该数据存储中获得什么样的性能?你能做到这一点，而不需要一直复制所有数据吗?”

由于一些设施每天生成pb级的数据，最后一个问题尤其相关。

Onto公司的麦金太尔表示:“越来越多的数据被生成和保留。举个例子:15年前，故障检测和分类(FDC)和物联网数据在产量分析中几乎为零，但今天，这些数据被认为是生产线控制和整体问题解决的必备数据源。在一个有组织和结构化的环境中保留tb级的数据在15年前被认为是过分的，而今天这是一个绝对的要求。”

存储和管理这么多数据的能力需要存储、计算机、路由器和网络的基础设施。设备单元/站可能有本地存储器。基础设施将数据从设备的生成点转移到数据存储系统，然后将数据转移到工厂/设施中的集中式数据存储，例如制造执行系统(MES)。这个基础设施反过来管理数据质量、完整性和安全性。

这就是大意。但数据的指数级增长已经促使工厂重新考虑数据的存储选择，以平衡当前需求和较长的保存寿命。后者支持关键任务ic档案需求，并支持工程师和数据科学家寻找更长的时间段(几个月和几年)的趋势。

Exensio Solutions的主管Greg Prewitt表示:“存储大量数据既带来了技术挑战，也带来了成本开销PDF的解决方案．“我们正在将客户迁移到分布式和多层后端数据存储，以满足他们的数据保留目标。”

这与过去许多企业数据中心的运营方式并无不同。在某些情况下，旧的数据仍然存储在磁带上，而最新的数据存储在旋转介质上。需要立即访问的数据通常存储在具有高速光学互连的固态驱动器上。改变的不是基本桶，而是需要排序的数据量，以及需要排序的速度。

工厂IT部门确实意识到了这种管理更多数据的转变，因为他们需要这些数据来改善运营。“例如，机器日志和参数是数据处理和分析的基本元素，”Amkor的Yun说。“我们最近的努力包括构建可扩展的数据管理平台和基础设施，以跟上数据增长的速度。在过去，典型的基础设施刷新/扩展通常是四到五年的周期。现在，每年都应该重新审视它。”

存储数据的成本已经降低了，但存储更多的数据也带来了其他挑战。

“在过去的10到15年里，原始存储容量不再被视为成本障碍，”PEER Group的产品传道者Doug Suerich表示。“现在的限制因素是我们有太多的数据，这是智能处理数据的能力。这只是庞大的数据量，因为工程师们希望机器学习可以帮助他们研究这些数据，然后在干草地里找到那些针。”

随着数据量和数据处理的压力，半导体公司已经开始将其数据管理转移到云支持的技术。

谁负责?
管理这些基础设施让大公司和小公司都陷入了困境。现在这是一个要求，但也不像听起来那么容易。

“人们低估了它的复杂程度，”NI的Schuldenfrei说。“并发症由多种因素引起。首先，真正的大数据很难管理。其次，无论您选择什么数据库，都需要大量的专业知识和对数据的理解才能真正正确地构建数据。事实上，即使是做出正确的技术决策也需要大量的知识和理解。”

人们普遍同意最后一点。“基础设施团队负责设置存储解决方案，数据库管理员必须不断优化存储堆栈，”英特尔的Desineni说。“在为消费设置数据时，这两个参与者通常都没有必要的领域专业知识，这意味着他们严重依赖领域专家(测试专家或产品工程师)来为他们定义详细的需求，这可能有效，也可能不有效。”

没有数据可以阻止分析，但是错误的数据会产生问题。因此，需要在软件中编写数据质量策略，以确保数据的完整和准确。

“一个假设完美的数据管理系统会产生坏数据。对于工程师来说，干净的数据是非常重要的，可以作为他们做出产量反应的依据。的首席执行官约翰·奥唐纳说:“我们需要认识到事情出了问题。yieldHub．例如，网络问题可能导致不完整的数据加载。只需将测试器产生的数据量与上传到MES的值进行比较，就可以检测到这种情况。”

可维护性、安全性、经济性
投资IT基础设施包括构建和维护系统。它还需要It专业人员、流程工程师和产品工程师共同设计一个安全且具有成本效益的系统。

Onto公司的麦金太尔指出:“这些关键的基础设施不仅在工厂成立之初投资不足，而且许多公司仍然把IT基础设施视为一种投资，一旦购买，它就会变成静态的，直到失效为止。”“由于供应链越来越复杂，先进制造业要求这些IT系统成为持续投资和更新战略的一部分。”

那么维护这些系统到底需要多少人呢?答案是，比建造它们所需的还要多。

“假设你需要10个人来构建这个系统，”Schuldenfrei说。“5年后，你将需要超过10个人来维护它。原因是您继续维护您的遗留代码，这些代码正在变得陈旧和过时。当没有人知道如何处理它时，维护它就变得更加昂贵。与此同时，您还要发展下一代，因为您构建系统所依赖的技术正在过时。你在不断地增加投资。它永远不会下降。”

这项投资的一部分就是移动数据。从原始资金和资源的角度来看，数据越多越难转移。千兆字节的数据包括通过电缆、光学通道、无线以及可能的卫星进行的电子传输。一个频道每秒只能传输这么多比特。

PEER Group的Suerich说:“挑战随着数据的增加而增加。”“这不像买一个更快的互联网连接那么简单。它是与之相关的一切，就像你在不同国家的工厂里生产线的直立能力。并非每个国家，尤其是制造业发达的国家，都有同样良好的网络连接。然后，当你获得这些海量数据时，安全问题就变得更难了，因为扫描这么多数据是否存在IP泄露或病毒需要时间。”

在过去，许多公司甚至不会考虑将数据转移到云端。但在过去几年里，云已经成为一个不错的选择，因为数据托管公司意识到安全性将是一个关键的卖点。数据分析公司经常对客户进行安全能力教育，在许多情况下，这比内部安全要好。

yieldHUB的O 'Donnell说:“数据在云端比在本地更安全。“此外，云数据库的巨大可伸缩性比本地系统的成本更低。”

其他人也注意到内部数据管理的成本影响。Synopsys的西蒙说:“这很快就会变得非常低效和昂贵。”“企业关注数据分析软件的成本，但他们低估了IT基础设施的成本。IT基础设施成本加上数据库成本再加上本地数据库管理成本。再乘以20个站点，与集中式解决方案相比，即使对大公司来说，这也变得非常昂贵。”

然而，使用云技术进行集中并不意味着工厂放弃其本地数据。

结论
虽然人们把大数据和机器学习相提并论，但这种对制造业数据的分析仍处于起步阶段。考虑到缺乏IT基础设施投资，生成数据的公司需要在投资ML之前增加投资。

英特尔的德西尼尼表示:“数据是新的石油，这是最近的一个俗语，通常是为了鼓励采用人工智能分析。“论点应该是首先将数据视为一种资产。按摩它，宠爱它，把它储存在漂亮的桶里。尽情挥霍吧。人工智能分析可以等一等。”

工程师有效地利用现有数据来解决产量和质量问题，并优化制造和测试步骤。然而，即使在今天，由于没有完整和干净的数据，两个制造步骤之间或两个参数之间的简单统计相关性可能是不准确的。解决这个问题需要对整个数据管理系统进行更大的投资。

Onto的McIntyre说:“解决方案都始于适当而有效的数据组织。“与缓慢的收益斜坡、短途旅行和人力资源重新定向解决问题的成本相比，认识到数据存储成本是最低的，这将远远满足数据保留所需的资本投资。还需要认识到，保留数据而不了解其内容和使用是无效的。”

Fab和测试工程团队知道他们想要的数据。IT部门可以成功地与他们合作——只要上层管理层投资于数据基础设施。

有关的故事

唯一标识pcb、组件和包装

人工智能系统中的艰难记忆选择

更智能的制造

安妮Meixner

(所有的帖子)
安妮·梅克斯纳是《半导体工程》的特约编辑。她在半导体行业有30多年的工作经验。作为IBM的一名年轻工程师，她开始对半导体制造过程中的缺陷着迷。在此期间，她专注于测试方法，重点是混合信号和模拟DFT和测试。作为一名技术传播者，她接受复杂的想法，并将其解释为可消费的、可理解的部分。Meixner曾在IBM、卡内基梅隆大学和英特尔工作过。她拥有三项美国专利，她的同行已经在IEEE国际测试会议上认可了她的两篇最佳论文。她于2015年创立了工程师之女，为半导体测试提供咨询并指导工程师。

2的评论

普华永道战略& 说:

2020年12月17日晚上11:06

一篇汇集了该领域多位专家观点的优秀文章。

semicon中数据管理的挑战肯定被涵盖了。但是，我觉得这里有几个方面没有触及到，这是在一个已经处于世界领先的自动化领域实现以数据为中心的突破的关键。

即:

1.semicon中的数据管理如此困难(而且难度呈指数级增长)的关键原因是，业务逻辑和数据模型是硬编码在软件中，而不是显式描述，例如作为知识图。

2.很少描述和维护跨界数据中心的总体愿景，就像投资于数据管理的ROI估计一样。没有量化可能的收益(并跟踪它们!)，管理层发现很难分配投资。

3.同样与管理相关的是，数据管理方面的突破需要与改变半导体制造和研发工作方式的愿景联系起来。如果没有同时更改实际业务流程，则附加数据将毫无用处。

这三点都很难改变，但能给那些改变的人带来巨大的优势。Facebook、亚马逊(Amazon)、特斯拉(Tesla)的例子很能说明问题。

安妮Meixner 说:

2020年12月21日下午5:29

谢谢你的夸奖，我很欣赏你详细的观察。

基础设施影响数据分析

安妮Meixner

2的评论

留下回复取消回复

知识中心博客

产量管理系统(YMS)

数据分析

数据分析与测试

人工智能(AI)

半导体制造

技术论文

热门文章

浮点8能解决AI/ML开销吗?

RISC-V芯片有多安全?

选择正确的RISC-V核心

启动资金:2022年12月

石墨烯电子(佐治亚理工学院)

知识中心
探索实体、人员和技术

相关文章

芯片设计随着基本定律的失效而转变

新一代晶体管有什么不同

所有的半导体投资都去了哪里

定制的硅响尾蛇芯片设计生态系统

芯片架构的基本变化

浮点8能解决AI/ML开销吗?

RISC-V推向主流

RISC-V芯片有多安全?

赞助商

最近的评论

关于

导航

与我们联系

基础设施影响数据分析

安妮Meixner

2的评论

留下回复取消回复

知识中心博客

产量管理系统(YMS)

数据分析

数据分析与测试

人工智能(AI)

半导体制造

技术论文

热门文章

浮点8能解决AI/ML开销吗?

RISC-V芯片有多安全?

选择正确的RISC-V核心

启动资金:2022年12月

石墨烯电子(佐治亚理工学院)

知识中心探索实体、人员和技术

相关文章

芯片设计随着基本定律的失效而转变

新一代晶体管有什么不同

所有的半导体投资都去了哪里

定制的硅响尾蛇芯片设计生态系统

芯片架构的基本变化

浮点8能解决AI/ML开销吗?

RISC-V推向主流

RISC-V芯片有多安全?

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
探索实体、人员和技术