后硅调试的问题

成本上升、市场窗口收紧以及设计越来越多样化,正迫使芯片制造商重新思考基本的设计方法。

受欢迎程度

传统上,半导体工程师一直专注于在试制时尝试创造“完美”的GDSII,但软硬件交互、日益异构的设计以及人工智能的引入等因素正迫使企业重新考虑这一方法。

过去,芯片制造商通常指望更长的产品周期和硅的多次迭代来发现问题。这种方法不再有效,原因如下:

  • 成本随着复杂性的增加而不断上升,但支持10亿单元设计的市场正在趋于平稳,竞争也越来越激烈。结果是芯片的产量越来越小,对可靠性的要求也越来越高。
  • 设计越来越异构,包含多个计算元素和内存,而不是单一的处理器。
  • 在包括汽车和工业设计在内的所有领域,上市时间压力都在上升。

简而言之,芯片制造商面临着压力,要在更短的时间内,以同样或更少的钱做更多的事情。但是,当涉及到他们过去使用的相同方法时,这种算术肯定是行不通的。

“许多年前,进入市场可能需要1000万美元,然后是5000万美元,现在在高级节点上,你可能会谈论2亿美元,”Rupert Baines说UltraSoC.“人们说这是节点的成本,或者是处理的成本,等等。但实际上,虽然口罩的成本上涨了,但涨幅并不大。最重要的是,如果你看看掩模成本或EDA成本,以每个晶体管为基础,它实际上呈下降趋势摩尔定律戏剧性曲线。产品成本飙升的原因是集成和软件。”

软件是罪魁祸首之一。贝恩斯说:“在这些越来越大的系统中,我们做得越来越多。”“它们的软件数量在增加,这需要花钱。整合的数量正在以令人难以置信的速度增长。每个人都在谈论tape-out,好像tape-out就是故事的结局。它不是。这是一个内部里程碑。胶带对你的顾客来说没有任何意义。这对你的收入流没有任何意义。它纯粹是项目上的一个标记,大概是项目的一半。 We’ve had years of discussion around ‘Shift Left,’ which all of the EDA vendors talk about as a way to accelerate tape-out, but nobody has been talking about the second half of the project, which is where the costs are increasing astronomically. From a financial point of view, that’s where you need to focus all your energy. The side before tape-out, where, on a constant basis costs are falling, that problem has been solved to a degree. It’s the side after tape-out where costs are rising, and schedules are slipping. So it’s all about the half of the project after silicon comes back until time to revenue. It’s not time-to-tape-out, it’s time-to-revenue that matters.”

人们普遍认为,后硅时代调试相关的挑战finFET-级asic和先进的包装如2.5D是令人生畏的。此外,越来越多的异构设计加剧了这些问题,这被视为一种越来越必要的方式,可以弥补节点缩小带来的功耗/性能改进下降,以及提高AI/ML/DL的性能。

“成功的两个最重要的因素是准备和合作,”阿贾伊·拉尔瓦尼说,阿贾伊·拉尔瓦尼,全球制造业务副总裁eSilicon.“在来自多个供应商的知识产权集合、制造它们的半导体工艺之间,存在许多潜在的、微妙的相互作用2.5 d包和相关的HBM内存和系统固件。成功实现这样的设计需要一个多学科的团队,包括IP、晶圆厂、包装和客户等所有关键生态系统参与者。”

拉尔瓦尼指出,等到芯片从晶片厂运来再组装这个团队是行不通的,因为团队需要在芯片到达前几个月就开始分析场景,为复杂的任务做准备。“这是领先于这一进程及其挑战的最佳方式。如果团队的所有成员都做好了准备,并愿意分享信息来解决问题,事情通常会进展顺利。”

科技的商业
不过,从商业角度来看,让芯片工作并不是唯一的考虑因素。十亿台手机芯片与针对更窄细分市场、产量更小的芯片相比,芯片开发的经济效益有很大不同。

贝恩斯说:“30年前,关于BiST存在争议。“显然,这是值得做的。现在甚至没人想过这个。但是为了正确地做这件事,你想要在最开始的时候就进行这些讨论。你有你的DFT专家参与设计,在设计过程的早期就为架构做出贡献。如果您这样做了,那么DFT将得到有效的集成,BiST将出色地工作,并且您将获得所有的好处——经济、产量和所有其他方面——因为您在设计过程的早期就做出了决定。我们需要在集成、验证、验证和后硅阶段做一些类似的事情。”

他说,后硅调试是坏的,证明了爆炸的成本。“如果我们有运行良好的工具和技术,那么就像在前硅阶段一样,我们会看到成本在常态化的基础上下降。显然,更大的芯片比更小的芯片成本更高,但我们应该看到的不是每个晶体管的成本,而是每千行代码的成本或每个晶体管的成本下降,但事实并非如此。这证明了现有的方法是行不通的,因为它们做了很多假设。目前几乎所有的设计方法基本上都假设有一个处理器,或者如果有多个处理器,它们假设它们是独立的,你可以把它们当作只有一个处理器。它们没有考虑处理器数量的可伸缩性,也没有考虑处理器数量之间的交互。这是一个留给人类工程师用他或她的脑细胞解决的问题。它不在于方法论或架构。”

随着芯片变得越来越异构,这变得更加困难,并且开始强调一些经过验证的设计方法。

模拟早就是主要的了吗验证的产品管理总监Pete Hardee说:“它首先用于定向测试,测试预期的功能和测试创建者可以设想的尽可能多的超出规范的行为。节奏.“然后模拟演变到使用约束随机来覆盖这些场景的变化testbenches.”

现在验证工程师广泛地用正式验证来补充模拟。形式化的优点是尝试每一种可能的输入组合,从数学上证明或反驳作为属性捕获的功能的一个方面——最常见的是属性SystemVerilog断言(上海广电)。

“传统上,尝试每一种组合来实现这些断言的完整证明,将形式验证的应用限制在更小的、‘形式合适’(通常是控制主导)的、具有更小状态空间的块上,在这些块上,形式可以取代单元级测试的模拟,”Hardee说。“但现在,新的能力和技术水平正在与模拟并行或在模拟完成后广泛部署,以深入研究更大ip和子系统的状态空间,并找到显示断言失败的反例。这些‘深度漏洞搜索’技术能够发现极端情况下的漏洞,即使是在模拟已经以良好的覆盖率指标完成的设计中。”

不同的方法
形式验证是一种在被认为是完全验证的设计中发现高价值bug的经过验证的方法。在正式场合的技巧是精确地缩小你想要做的事情,这并不总是容易的。

“我们的一个客户试图验证7nm工艺的100万个连接,”他说Raik Brinkmann, CEOOneSpin解决方案.“问题是,验证一个连接需要24小时。我们发现,最好从头开始重新构建应用程序并重新考虑问题,而不是尝试使用已经可用的东西。因此,他们能够将验证连接所需的时间缩短到23秒。他们能够缩小问题范围,指定联系,并使用模式来进行验证。”

这就是需要做出最大改变的地方。制造芯片不再仅仅是使用经典冯·诺依曼,单核或多核处理器架构。

“人们把更多的注意力花在了找出最佳架构上,”他说Aart de Geus的董事长兼联合首席执行官Synopsys对此.“如果你在架构上有瓶颈,你不能把所有数据都放到缓存中。可以探索这些体系结构。如果你改变了这些比率、总线和架构、计算量和外部内存访问,会发生什么取决于所有的参数。架构调优变得越来越重要。但这是另一种说法,传统的冯·诺依曼机器正在进化为下一代机器,基于设计它的人的创造力。”

不过,这也产生了一系列问题,因为问题需要在上下文中解决。“你必须优化系统的复杂性,这在矩阵上是多维的,”德Geus说。“在软件领域,也存在同样的问题,但它较少受到验证的控制。如果你在芯片上做一个磁带,你发现了一些错误,并且它不能工作,你就会损失500万到700万美元的掩模成本和时间。对于软件,你发送一个补丁。纪律已经不那么严格了。但随着软件复杂性的增加,统计数据对你不利。”

当它到达后硅阶段时,这是一个有许多运动部件的系统,并不是所有的部件都被精确地描述或理解。错误可能源于硬件和软件之间的不匹配或错误解释的规范,或者对系统用例的不完整考虑。

哈迪说:“为应对这些挑战,其他核查解决方案正在得到更广泛的应用,新的解决方案也在不断出现。”“其中一个例子是硬件的广泛使用模拟为了彻底测试硬件-软件交互,使用足够的性能和容量在足够精确的硬件模型上运行足够的软件。第二个例子是对更广泛的系统用例集的验证,这些用例集是通过新兴的便携式刺激规范(PSS)并使用新工具执行。”

Breker Verification Systems的首席营销官戴夫·凯尔夫(Dave Kelf)对此表示同意。“硅后验证一直是验证过程中典型的竖井,不同的团队负责硅诊断,通常与验证流程完全隔绝。这并不奇怪,因为目前的验证技术不容易移植到后硅时代。众所周知,便携式刺激是针对这些问题,允许验证测试在制作后重复使用。实际上,为验证工程师提供一个完整的流程还需要更多。PSS工具还必须包含后硅调试和覆盖,这需要对硅的更高程度的可见性。PSS工具必须允许工程师观察在设计上运行的测试,并通过从验证套件中注意哪些测试失败,确定产生问题的内部组件。有了正确的工具,后硅可以类似于更通用的验证,并具有相应的调试能力。”

后硅调试工具市场远不是一个需要解开的新结。斯蒂芬贝利,战略营销总监Mentor是西门子旗下的企业近十年来,他一直在关注这一领域,但他说,芯片制造商往往不愿采用新的工具和技术方法.“让人们在原型中使用任何东西都很容易,但让人们在最终的硅片中使用某些东西要难得多。提供商业产品的最大挑战是让公司从内部开发到现成的东西。这仍然是一个重大挑战。就拥有一个商业产品而言,整个市场的挑战是你能在硅中提供什么样的可见性,因为当人们拿回他们的第一个硅(或第二个或第三个硅)时,如果它还没有完全脑死亡,但还没有准备好生产,你需要有一些能力进入那里,弄清楚到底发生了什么。这需要做的不仅仅是系统级扫描转储,它的价值有限。这很重要,但在试图弄清楚发生了什么时,它的价值是有限的,特别是当您遇到意想不到的性能问题时。这确实是一个挑战,因为很明显,当你添加某种可见性功能时,如果不重新旋转芯片,你就无法改变你所看到的内容。”

这就是后硅调试与FPGA和原型设计市场,在那里设计可以被重新编译。贝利说:“可能需要一两天才能得到新的结果,但这比为了获得更好的可视性而换回新芯片要快得多。”

提供这种可见性需要一个系统级的策略,该策略包含越来越多的变量,包括不动产成本、可能由仪器引入的性能影响,甚至各种类型的变化。调试受到所有这些变量的影响,提供对这些类型问题的可见性会产生很大的影响。

“调试一直被认为是‘红发继子’,”UltraSoC的Baines说。“这总是事后才想到的。他们总是说,‘我们会让弗雷德来处理的,’或者‘我们就不能用JTAG吗?它从未被恰当地视为商业模式和成本驱动因素的一部分。此外,由于调试传统上是由核心供应商完成的,因此它被认为是处理器问题,而不是系统问题。当然,核心供应商只关心他们自己的核心,因为它被认为是一个基于核心的问题,而不是一个系统问题,很多工具和方法根本不存在。”

结论
即使有最好的计划,bug也会逃到硅里。后硅调试,传统的方式,是没有乐趣的。它需要费力地查看非常长的JTAG跟踪,并尝试执行根本原因分析,以找到导致问题的原因。大量的数据和糟糕的调试可见性使它类似于大海捞针。

考虑到与后硅半导体设计相关的成本的重要性,这是一个行业领域,随着设计的复杂性和异质性的增长,将继续发展。

-Ed Sperling对本文也有贡献。



留下回复


(注:此名称将公开显示)

Baidu