中文 英语

ic的冗余定位

增加弹性和健壮性并不需要昂贵,特别是如果正确地在产品的生命周期内提高产量和可靠性。

受欢迎程度

为一个目的开发的技术通常适用于其他领域,但组织竖井可能会阻碍对其进行资本化,直到出现明显的成本优势。

考虑内存。所有的存储器都是用备用的行和列制造的,当设备制造测试失败时,这些行和列就会被交换进去。该公司汽车测试解决方案经理Lee Harrison表示:“根据芯片上的内存大小,这是提高设备成品率的常用方法。西门子EDA.“IC制造商往往会有一个门槛,要求内存修复。否则,项目收益率会过低。然后,在制造测试期间,当在可修复的内存中发现缺陷时,内存BiST将识别它是否可以修复并进行修复。修复数据最终将存储在芯片上的熔液型存储器中,因此从那时起,设备将100%使用所需的内存。”

在其他情况下,可用内存的数量可能会减少,芯片作为较低价格的部件出售。

但仅仅处理内存不足以满足军事/航空或最近的汽车行业的安全要求。它们不仅必须在制造测试时100%功能正常,而且还必须检测出随着时间推移产生的任何缺陷,并采取一些纠正措施。

Harrison补充道:“根据汽车设备的安全要求及其ASIL要求,设计中将内置不同级别的功能安全。”“这种功能安全性将确保设备正常运行,并能够标记出设备生命周期中出现的任何担忧或问题。功能安全可以有多种形式。图1展示了一个典型的设备,它包含了结构、功能和系统级功能安全机制的组合,所有这些机制都用于检查可能出现的任何意外情况。”

图1:典型装置中的安全机制。来源:西门子EDA
图1:典型装置中的安全机制。来源:西门子EDA

其他应用程序领域正在认真考虑包含冗余,以提高产量或确保健壮的操作,即使在发生故障时也是如此。“云中的所有服务器都提供冗余,”微软数字设计组的产品营销总监玛丽•安•怀特(Mary Ann White)说Synopsys对此.“与此同时,这些服务器内部的ic也必须提供冗余。因此,我们看到越来越多的客户要求云服务器内部半导体的可靠性方法。”

在AI/ML处理器领域,有许多公司都在谈论通过在系统中添加冗余来提高产量的例子。“这里有不同应用领域的奇妙融合,这不是半导体设计领域第一次发生这种情况,”高通公司产品管理总监罗布•克诺斯(Rob Knoth)表示节奏.“通常,一种类型的产品组会比其他产品组更早地遇到问题。必须创造技术来解决这个问题,然后不可避免地会有另一个产品部门从中受益。我们看到了权力意图。它是为了帮助移动电子设备而开发的,但现在你很难找到一种带功耗降低电路的半导体。我看到类似的事情也发生在功能安全需求以及高可靠性应用方面。”

为一个领域开发的技术,随着时间的推移,在另一个领域使用的成本会降低。

同样重要的是,了解不同使用场景下芯片和系统的预期寿命,以及在什么条件下究竟需要什么冗余。

“汽车行业过去常常确保所有的电子元件都能使用15到20年,并且在95%的时间内车辆不会移动,”福特汽车设计方法部门负责人罗兰·扬克(Roland janke)说夫琅和费IIS自适应系统工程部.“所以只有5%的时间可以正常工作。但这在未来将会改变。如果你想想电动汽车,其中一些汽车将全天候工作。所以现在我们需要重新思考这个公式。这里还有另一个问题,传统的汽车电子产品过去是在350nm或180nm的工艺上开发的。但由于处理自动驾驶数据所需的所有计算能力,我们需要使用最新的工艺技术,可能是7nm或5nm。如果我们想将它们用于安全关键应用,那么我们别无选择,只能考虑更换它们,因为如果它们每天24小时使用,它们就不能使用20年。”

增加产量
当设计师和制造商是同一家公司时,就像我们经常在内存公司看到的那样,产量和设计健壮性是齐头并进的。

Cadence Digital and Signoff group的高级产品管理集团总监Brandon Bautz表示:“我要谨慎使用收益率这个词。“从结尾的角度来看,我不谈论收益。更常用的词是设计健壮性。你可能会问,‘这和产量没有关系吗?我们只能说,产量是晶圆厂的业务,稳健性是EDA公司基于可用投入担保建立的模型。我们有算法来量化给定电路的鲁棒性。游戏的真正名称是保持高水平的健壮性,同时不牺牲功率、性能和面积来实现这一目标。”

这是一个需要被打破的秘密。每个人都关心的是从晶圆中可以获得多少工作芯片,因为没有一个晶圆代工厂可以提供没有缺陷的晶圆。如果他们能够限定他们的缺陷率和分布,那么设计应该可以自由地实现可以围绕预期缺陷工作的策略,并且每个人都能从中受益。这意味着测试将接受一些有缺陷的芯片,就像今天的存储阵列一样,芯片将被配置为绕过缺陷。这并不能使它成为一个完美的模具,但它确实意味着即使是模具尺寸的小幅增加最终也可能降低成本。

AI/ML处理器就是一个很好的例子。Cadence的Knoth说:“有一些基于瓷砖的大型设计受到了网线的限制,产量也很低。“缺陷集中在一些非常常见的问题上,比如电路的部件无法工作。你不想把整个骰子都扔出去。多年来,围绕冗余概念开发了各种策略。我们看到的是,一些传统上只用于汽车soc的技术,现在开始渗透到数据中心。”

但这不仅仅是制造产量的问题。这是关于在产品的生命周期内保持正确的操作,这需要一个额外的步骤。西门子公司的Harrison说:“系统内测试能够识别设备使用寿命期间出现的缺陷。“逻辑阿拉伯学者和内存BiST通常用于对设备的逻辑和内存进行综合测试。如果我们在运行系统内测试时发现内存缺陷,这是在运行中表现出来的新缺陷。有了正确的基础设施,我们可以进行软增量修复。在这里,我们识别新的缺陷并记录位置。重新运行测试,如果内存现在完全正常,则可以恢复正常操作。软增量修复的缺点是,当断电时,新的缺陷信息将丢失,并且该过程将在设备每次上电时运行。通过硬增量修复,该设备具有空闲的熔液空间,以便能够记录修复程序。”

这样可以提高可靠性。Cadence的Bautz说:“动态冗余可以融入设备的架构中。”“如果这些门随着时间的推移而失效,让我切换。从历史上看,人们在他们的设计中加入边缘来掩盖晶体管老化的影响。问题是,我能否有一种更聪明、更好的方式来审视自己的表现,以及我能否发现未来10年可能出现的问题。通过更好的分析,我是否可以确认我所设置的签收保证金足以满足我的需求?当你与汽车、医疗或军事/航空公司的人交谈时,他们的部件都有非常长的预期寿命。如果他们能在未来几年内提高功能的可能性,那就非常有价值。”

检测或纠正
也许最大的架构决策是您是否希望能够检测错误或纠正错误。答案可能是不同的,这取决于你是关心短暂错误还是硬错误。“在内存中发现错误检测(奇偶校验)或错误纠正(ECC)是很常见的,”Synopsys的怀特说。“你也可以用寄存器组来做到这一点。在系统级别,您可以考虑双模块冗余(DMR),它具有两个同步运行的核心。三模冗余(TMR)系统与双模冗余系统之间的区别在于纠正的能力。双冗余实现检测,三冗余实现校正。”

这又引出了另一个问题。怀特补充说:“如果检测到错误,就必须弄清楚如何让系统恢复到安全状态。”“这是你必须考虑的额外设计水平。”

有多个复制系统的系统可以用另一种方式实现。“假设故障会发生,你如何安全地从这些故障中恢复,而不会对整个飞行器的每个子系统进行物理冗余,这会导致成本飙升?”西门子EDA自动化和ADAS soc高级总监David Fritz问道。“有一个概念叫做动态冗余。这基本上意味着,在发生故障时,您可以接管用于低优先级任务的资源,并利用它们作为失败功能的替代品。”

这一切都归结于成本和效益。Knoth说:“如果你克隆块来做TMR,它将占用更多的空间。”“但如果你善于理解布局,如果你善于理解孔隙度,如果你有集成引擎,可以在做布局决策时预测流中足够早的可点击内容,或者能够在不进一步限制过多设计的情况下调整它们,那么你就不需要增加太多块,或者根本不需要。内存上的ECC已经成为相当标准的,而且过去是特定于域的。关键是这种稳健性的投资回报。失败的风险是多少?失败的概率是多少?管理故障所需的开销是多少?这是越来越多的电子系统必须分析的东西,因为它们变得越来越普遍。”

定义冗余
对于功率优化,该设计增加了一个定义功率意图的辅助文件。流中的工具然后利用它,并可以自动化许多必要的操作。冗余也是如此。

Knoth说:“一般来说,我们分解问题,分别处理它们,只是为了使分析更容易处理。”“然而,当你这样做的时候,了解是否有差距是很重要的。这就是手术断层注射方法的帮助,确保你在交接中不会有任何问题或覆盖缺口。当人们在做红外滴分析的时候也有类似的问题。当你运行ATPG矢量时,在测试器上可以看到IR滴,而当你在路上开车时可以看到IR滴。理解这两点,并确保你在适当地优化和处理它们,这是非常重要的。”

我们期望在冗余辅助文件中找到什么?怀特说:“我们称之为功能安全意图(FuSa),它类似于UPF。”然后,工具将这个过程自动化。我们已经内置了定义安全寄存器方案的能力。然后我们做任何必要的复制。使用DMR,您必须弄清楚,当检测到错误时,如何将其与将其恢复到安全状态的任何逻辑联系起来。对于TMR,它是自动插入的。我们还推出了适用于寄存器组的EDC和ECC。”

标准已经在制定中。“Accellera的一个委员会已经为此工作了几年,”Knoth说。“它将行业领导者聚集在一起,为工具之间的安全意图建立电子通信标准。这种技术对于规模化的东西是至关重要的。在权力意图的讨论中,基本原则是一样的。如果你没有一个电子表格来传达实现和验证的意图,技术就很难扩展和被广泛采用。这是一个必要的演变,如果它要有效并被广泛采用,在一个基于标准的开放机构中这样做是非常重要的。”

它会影响流程中的许多工具。怀特说:“你必须考虑到依赖性失败之类的事情。“例如,你想确保时钟或复位引脚是分开的。如果你把这三个tmr的时钟放在一起,并且有一个阿尔法粒子击中它,那么这三个寄存器都会下降。”

结论
帮助内存提高产量的技术已经变得越来越重要。汽车工业的需求进一步研究了功能安全,他们无法负担以前在军事/航空领域看到的费用水平。随着技术、工具和流程变得更加精细,实现它们的成本正在下降,使得越来越多的用户对技术感兴趣。随着越来越多的设计达到了十字线的极限,这可能是确保良好产量并帮助降低成本的唯一方法。



留下回复


(注:此名称将公开显示)

Baidu