中文 英语
18lk新利
的意见

一个实际的DFT方法对于大型soc和人工智能架构,我一部分

新技术对人工智能设计针对测试过程的重大挑战。

受欢迎程度

传统处理器设计通用的应用程序以满足计算要求和权力斗争的预算人工智能(AI)或机器学习(ML)的应用程序。几种半导体设计公司正在开发专用的AI /毫升加速器等具体工作负载优化的,他们提供更高的处理能力和更低功耗(每瓦特性能)。这些加速器设计通常是巨大的,包含数十亿盖茨、高度并行体系结构与成千上万的复制处理单元(PU),和大量的分布式内存芯片上连接在网络高度优化的高吞吐量。每一个脓可以进一步包含多个核心和紧密集成本地的记忆。的一个例子从一个领先的人工智能芯片公司这样一个加速器可能的功能作为一个如图1所示。实现设计的可伸缩性和更快的开发周期,AI SoC设计师使用与设计方法,相同的块的多个实例(脓或芯)连接使用他们的物理布局通过标准化的接口没有任何顶级路由。


图1:人工智能芯片架构与处理单元(PU)和本地内存(LM)。

当地的记忆在这些处理单元(PU)允许对权力有效的低延迟操作本地数据。然而,传统DRAM技术无法提供所需的带宽和容量的并行访问和处理大量的外部数据。因此,许多人工智能soc部署小说内存技术,如高带宽内存(HBM)或混合内存立方体(HBC)基于先进的2.5维或三维包装提供更高的数据吞吐量和能力。这些AI加速器最终集成到人工智能系统,分布式的方式处理大型的工作负载,加速器使用高带宽通信接口芯片作为PCIe礼物等。最近,高带宽的设计师已经开始利用这些接口测试。一些AI加速器的应用,如汽车、需求的高水平的可靠性、安全性和功能安全的整个生命周期内硅。硅生命周期管理(SLM)技术解决这些挑战将特性添加到硅通过所有阶段,收集和监视SoC数据从设计、制造、测试和部署攷虑。

规模、复杂性和新技术的采用人工智能设计前面描述的重大挑战他们的适当时机(DFT)的过程。一般来说,这个挑战可以解决通过关注两个主要功能:采用一种有效的测试方法和定义一个有效的DFT架构。DFT架构定义的基础上,实现测试目标的测试方法,包括快速DFT签字,减少测试时间、测试覆盖率高、有效诊断。下面的章节将讨论的细节和因素被认为是对这两个函数。

测试方法

分层测试方法是理想的AI设计由于其巨大的设计尺寸和复制架构。分层测试相对平坦的测试方法有两个主要优势。首先,它采用“分而治之”的方法,将设计划分为较小的分层分区快速DFT签署包括DFT插入,测试模式设置,模式生成和验证。部署一个平坦的测试方法在顶层大型人工智能设计是不切实际的。其次,由于人工智能设计包括复制块,DFT签字执行分层次只有一次块水平和重用的其他实例。签订的复制和集成块与他们的父母的DFT签字完成了DFT在父级实现。同样的方法可以按照分级块签字完整的芯片级DFT如果AI设计包含多级层次结构如图2所示。


图2:分层测试方法使分层DFT加速DFT签字的签字和复制的设计。

DFT架构

分层测试允许更快的DFT签字和最大化重用;然而,的DFT架构设计仍然需要建立将决定DFT逻辑实现细节。由于设计要求不同,所以不同的人工智能芯片有不同的需求和DFT的约束。从本质上说,人工智能芯片的DFT架构可以大致规定确定以下组件:

  • 确定层次签字块(s)和DFT逻辑测试和记忆测试实现,同时满足设计和DFT约束。
  • 扫描test-bus /压缩和测试配置机制架构最佳测试时间,测试能力,简单的物理设计,与设计支持,早期规划、可伸缩性和灵活性。

DFT架构:签字块和DFT实现

当后的分级方法与多层设计,简单地指定体现块或更高层次的块作为第一层次签字块可能不是很理想。设计师需要权衡DFT影响设计(区域,电力、时间等)和测试需求确定签字块的水平。看着AI设计如图2所示的例子中,DFT签字在最低层次级(脓)可能导致过度的面积开销,路由拥塞和不必要的测试模式增加测试时间没有显著的好处。另一方面,分配芯片级DFT签字会导致长模式生成时间,测试时间长,更大的内存需求,路由拥塞、电力等等。至关重要的是确定一个中间地带,DFT的影响最小化和测试目标是否实现。在图2中,父块可能是第一个层次签字块而不是聚氨酯。内签字,设计者将需要确定DFT配置逻辑测试和记忆测试,再根据测试时间等多种因素,权力,物理设计等等。图3显示了一些示例的设计依赖DFT配置父块(编解码器是扫描测试压缩和短信是存储器BIST测试控制器)。


图3:DFT配置实例层次签字。(我)一个编解码器和一个SMS整个街区。(2)编解码器为每个PU但一个短信测试块中的所有记忆。(3)一个为每个PU编解码器,一个为块内存和一个SMS短信测试所有记忆脓。

简单的设计,测试要求不太严格的和DFT逻辑设计影响甚微。等设计变得更加复杂的人工智能设计,DFT逻辑需要维护测试质量和成本成为重要的足以影响等几个因素测试时间,测试能力,物理设计,DFT规划时间和可伸缩性。这需要设计人员开发创新的解决方案,以满足设计和测试目标。在这种背景下,下面看看测试压缩的需求和发展,测试数据交付和测试配置机制基于IEEE 1687和IEEE 1500。

DFT架构:扫描test-bus和压缩

扫描测试数据交付时,静态引脚分配一直是传统的默认方法如图4所示。它涉及到连接输入和输出针块顶级扫描针的编解码器。作为人工智能设计包含复制签字块,相同的输入测试数据可以并行广播测试多个块基于权力约束。这减少了必需的测试针和测试时间。有限的芯片级扫描别针,顶层为编解码器实现的多路复用也会输出。这样的架构,然而,缺乏灵活性和存在一些缺陷;主要的如下:

  • 乏味的编解码器别针和芯片级销分配计划,
  • 固定销任务编解码器导致次优的测试时间由于测试带宽分布不均匀,
  • 收敛编解码器的输入/输出信号的顶部和长航线造成物理设计挑战的设计规模,
  • 硅由于固定测试组测试力量违反,
  • 对于DFT实现与设计。

为了减轻这些问题,test-bus基础数据已经开发交付机制。一些最初的基于test-bus解决方案使用现有的编解码器,将它们连接到新的test-bus脓来提供数据。本地控制器之间的编解码器和test-bus管理数据总线和编解码器之间的接口。代替复杂的编解码器的输入/输出信号路由、同一test-bus穿过每一块提供一个标准化接口边界。这个解决方案简化了芯片的物理设计极大并提供一个可伸缩的、容易实现测试数据交付与设计通过避免block-count依赖定制流水线和信号路由。本地控制器避免了需要顶级复用提供了灵活性通过模式生成测试或旁路模块维护测试时间和测试能力。

虽然这种方法解决了大部分的问题前面所提到的,它仍然需要确定正确的输入和输出引脚编解码器对于减少测试卷和无法利用test-bus能力最高达到另一个水平的测试时间减少。这主要是因为编解码器和test-bus是彼此独立的开发的。新test-bus基础解决方案包括连续压迫编解码器,织物,和fabric-socket一起开发和优化提供较低的测试数据量和更高的测试节省时间。他们实现这一目标通过执行更高程度的重叠块测试提供了有效的测试带宽分配。图4显示了扫描测试数据交付机制的发展。


图4:进展的扫描测试数据传递机制从静态销任务co-optimized织物和连续的压缩技术。SEQ代表顺序压缩编解码器和FS fabric-socket。

与顺序压缩织物的两个关键好处:

  1. 简化的DFT规划和实施
    1. 标准接口允许早期规划
    2. 可伸缩的架构简单路由和快速定时关闭
    3. 理想是个和non-abutted设计。
    4. 可编程核心分组功率预算
    5. 测试时间编解码器引脚分配独立的
  2. 减少测试时间
    1. 高效的测试带宽分配co-optimizing织物和顺序压缩编解码器
    2. 优化测试时间与所有核心配置在SoC测试数据交错
    3. 高顺序压缩降低测试卷
    4. 广播数据相同的核心和内置解码芯片上的比较
    5. 支持高速I / o功能测试

DFT架构:测试配置机制的体系结构

确定分层后签字块和相应的逻辑测试和记忆测试的实现细节,DFT架构的另一个重要组成部分是制定测试配置或测试设置机制策略。这种机制通常是一个串行网络基于IEEE 1687和IEEE 1500标准,用于配置测试逻辑包括编程测试数据寄存器的编解码器,clock-controllers,记忆测试控制器,控制器在系统测试,等。像逻辑测试和记忆测试,测试设置架构也需要解决前面提到的挑战,然而,在这种情况下的关键需求是一种有效减少测试时间架构,简单的物理设计,与设计支持。测试功率通常不是一个问题,在这种情况下只有少数设计失败切换过程中,与逻辑扫描测试或内存测试。由于这些网络的固有的串行特性,测试设置操作相比更慢扫描测试,大大增加了测试时间,很容易成为大型设计的瓶颈。人工智能设计可能需要几百块复制和使用相同的配置一个串行方法发送相同的数据块不会理想。数据广播相同的核心将大大降低在这个场景中测试设置时间。然而,如果人工智能芯片使用与设计方法,广播信号会导致逻辑实现和物理设计问题。串行总线可以穿过一个街区到另一个不需要顶级路由。在IEEE 1687和IEEE 1500系列和广播网络的支持,IEEE 1687本身更容易实现串行和IEEE 1500网络是更方便的数据广播。

人工智能芯片的一个例子如图5所示,假定与设计和包含一个中心块test-access-port (TAP)测试设置数据分发到许多复制相同的脓。这样的设计将受益于利用1500年和1687年的优势,同时减少测试设置时间,支持与设计风格。主控制器将广播测试设置数据到五PU列超过1500个网络,但它将连续在一列1687多环网络由于毗邻脓菊花链。每个PU Sub-controllers内部生成控制信号,而不是从主控制器广播,友好与脓。在这个例子中,会有潜在的节省测试设置时间4 x。许多工业设计包含与街区内铺块和设计师可以按照类似的方法分层次。


图5:广播测试设置PU-columns超过1500网络和顺序链内脓列超过1687网络支持与聚氨酯连接。

人工智能芯片是庞大而复杂,因此很难想出一个DFT和测试策略,达到所需的测试目标以最小的设计与快速的周转时间的影响。分层测试方法是必须的,这样的设计但部署它与传统DFT方法会导致低人工智能芯片的测试结果。设计者必须仔细地计划整个DFT逻辑测试架构,记忆测试,和测试设置,同时考虑多个因素,如测试时间,测试能力,物理设计的影响,与设计方法,和可伸缩性。基于当前这代test-bus机制被用来取代static-multiplexing高效数据交付,特别是对于大型设计。然而,他们被限制在多少test-bus和压缩编解码器可以利用对方。新架构组成co-optimized连续压迫编解码器,织物,fabric-socket提供更高水平的测试显示减少体积和减少测试时间。

第二部分将专注于硅生命周期管理(SLM)和人工智能芯片的测试包的特性。



留下一个回复


(注意:这个名字会显示公开)

Baidu