中文 英语

安全、保障和PPA权衡

关键设计指标的数量正在扩大,但行业仍在努力应对它们的影响。

受欢迎程度

随着芯片被添加到安全关键市场,安全和安全性成为关键的设计权衡,为本已复杂的优化过程增加了更多的复杂性。

在半导体设计的早期,性能和面积是相互权衡的。然后,功率变得重要起来,主要的权衡变成了功率、性能和面积(PPA)。但随着芯片越来越多地用于汽车、医疗、工业和航空电子设备的关键功能,安全和安保问题已成为人们越来越关注的问题,对设计产生了深远的影响。

从长远来看,像Spectre这样的硬件漏洞之所以存在,是因为人们对性能的关注超过了安全性。虽然可以防止侧通道攻击,但解决方案会消耗电力和面积。最重要的是,在构思产品时,我们不可能为各种攻击做好准备。这意味着产品必须能够在部署后进行更新和改进,这影响到整个PPA方程。

“这是一个长尾问题,”at的首席技术官马丁•斯科特(Martin Scott)表示Rambus.“你希望这些系统能安全使用10年或更长时间。”

然而,这种情况发生的可能性很小。加州大学伯克利分校名誉教授、RISC-V董事会副主席大卫·帕特森(David Patterson)在他的文章中谈到了“令人遗憾的安全状况”主题参加自动化设计会议。“对于在这一领域工作的人来说,这是令人尴尬的。在早期,我们曾经有很多用于安全的东西,但它们没有被操作系统使用,而且它们很贵,所以它们就消失了。”

安全可以是主动的,也可以是被动的,最安全的系统包括这两种。被动安全包括存储身份验证密钥,例如手臂而主动安全则使用功率来主动监控系统的行为变化。出于这个原因,主动安全的使用频率远低于专家们认为的应该水平,即使在内置了钩子的情况下也是如此知识产权,固件或软件,使其全部工作。

安全设计
今天,当安全的话题出现,它往往与汽车行业和ISO 26262.然而,随着越来越多的设备连接到互联网,安全和保障在不同程度上重叠。在汽车应用中确实如此,但在航空电子、医疗和工业应用中也同样如此。

在过去,解决安全问题最可靠的方法是复制。但随着安全和保障的交叉越来越多,需要资源,这种方法越来越不受欢迎——特别是在电力和性能被认为是关键的地方。

“你可以复制任何东西,我们已经看到了这一点,”微软营销副总裁库尔特·舒勒(Kurt Shuler)说ArterisIP.“这不是明智的做法。在一个互连中,你可以有多条路径,所以如果沿着某条路径有问题,我们可以通过另一条路径发送信息。就像互联网上的TCP/IP一样,如果你有多条路径,你需要在数据包中包含更多的信息。互连中的每一个看到数据包的逻辑也必须有更多的逻辑来处理额外的信息。这最终是一种愚蠢的做法,因为你最终会消耗如此多的能量,而你并没有比聪明的方式得到任何好处。”

对于互连,聪明的方法是通过单元复制只保护那些影响数据包内容的内容。Shuler说:“你有选择地复制一些东西,要么创建数据包,要么改变数据包的内容,比如防火墙,但你在互连的这些不同逻辑块之间所做的是用ECC或奇偶校验来保护路径或链接,这取决于你想要达到的完整性级别。”

复制增加了功率和性能方面的开销。

Arm高级功能安全经理安东尼奥•普里奥雷(Antonio Priore)表示:“如果盲目使用重复,当然会导致功耗大幅增加,这就是为什么需要明智地使用这种技术,并进行智能设计。”“我们仔细选择何时应用复制或替代冗余技术。实行重复也很重要,而且有机会通过选择性和动态地比较产出来节约能源。还应该说,复制主要建议用于完整性谱的最高级别,例如ISO 26262中的ASIL D,而在较低级别,其他更节能的技术,如软件测试库,将提供足够的保护。”

有多种方法可以解决这个问题。“奇偶校验,CRC,双锁步处理器和软件测试库是当今ic中实施的一些类型的安全机制的例子,”Bryan Ramirez说Mentor,西门子的一项业务.“但当我们从故障安全设备过渡到故障操作设备时,这些功能不仅必须检测到问题,而且必须找到一种方法来纠正问题并继续运行,或者至少达到某种安全状态(即将车停在路边)。因此,设计将需要某种程度的冗余来“自我修复”。我们面临的挑战将是找到高效的智能方法,因为冗余会增加成本和功率。这需要对安全架构采取全面的方法,考虑整个系统的解决方案和相互作用。”

避免重复的方法之一是使用设备中已经存在的其他系统,以避免严重的事故。该公司功能建模和验证部门经理Stephan Gerth表示:“你可以在有线刹车上看到这一点,它过去有一个独立的故障转移系统弗劳恩霍夫工程与自适应系统部门。“汽车行业已经不再使用这种方法了。航空业也是如此。现在,如果它失败了,你可能会找到另一个系统,比如信息娱乐系统,来接管。”

汽车自动驾驶的设计正在挑战半导体技术的一些极限,这也增加了一些安全风险。Shuler说:“半导体内部的软错误率有一组JEDEC特征。“我们发现,当你得到更小的几何图形时,这些数字已经从保守变成不再有效。晶体管的比例与电线不同,你会开始产生量子效应和奇怪的老化效应。目前有很多工作正在进行,以在晶体管层面上理解这一点。”

弗劳恩霍夫的格特说,当多个系统失灵时,情况会变得更加复杂。“系统知道如何应对这些故障,甚至知道如何检测它们吗?如果你有人工智能系统,是否所有这些系统都以同样的方式工作,或者是一个故障触发了它无法应对的事情?所有这些都需要考虑到功能安全和安保方面,因为现在可能比过去更容易侵入这些设备。”

功率优化会带来安全风险
许多设计团队一直在部署时钟门控功率控制以及其他降低能耗的技术。虽然这些技术会稍微改变面积和性能,但也会影响安全性。“时钟或电源门控会影响电力输送网络,”Preeti Gupta解释道有限元分析软件.考虑以下随时间变化的功耗图(图1)。粗体线表示未启用时钟门控时的设计功耗。虚线是启用时钟门控时的相同设计。当你从低功耗模式切换到高功耗模式时,低功耗技术会改变电流。在功率下限和平均功耗下降的同时,电流的快速变化会与封装电感耦合,从而导致输电网的电压下降。使用低功耗技术加剧了di/dt事件。涌流也会导致问题。”


图1所示。影响电源完整性的低功耗技术。源ANSYS

高频开关噪声也会引起类似的问题。该公司企业营销副总裁Magdy Abadir表示:“这是由于相邻街区电网之间的电磁耦合或串扰。Helic.“这种类型的耦合可以通过硅衬底发生,在相同的模具上,或在3 d-IC设计,通过一个插入器或堆叠硅模之间的直接耦合。随着我们不断提高集成水平,包括使用先进的3D-IC封装技术,EM耦合效应可能会影响功能、安全性和安全性。”

电源门控可能存在其他隐藏的问题。Abadir补充说:“如果电源门通发生在与1/根号(Lgrid Cdecap)电网谐振频率相当的频率上,则可能发生灾难性故障。”“这种事件发生的概率不是微不足道的,因为网格脱扣时间常数总是被设计成显著高于时钟频率,以避免与时钟共振。时钟门控发生在许多时钟周期,可以与网格LC谐振频率一致。”

其中许多问题需要在开发过程的后端解决,并可以减少这些优化的影响。ANSYS首席技术产品经理Scott Johnson表示:“对于7nm设计和500mV供应,这种波动可能高达标称供应的25%至30%。“这可能明显大于指定的可用余量,并且使得设计团队几乎不可能在不增加芯片上均匀的电网的情况下满足所需的阈值。这将导致时间拥塞、路由瓶颈和芯片尺寸增加。”

老化和产品健康
在首次制造时展示设计的安全性是很重要的,但它必须在预期寿命内保持安全和可靠。”模拟ip,如pll、dll和ldo,需要恒定的偏置电流,因此在激进的低功耗与安全要求之间取得平衡尤其具有挑战性,”movelus总裁兼首席执行官Mo Faisal说。“模拟的功能依赖于这些偏置电流和电压的准确性。老化是电路电流传导时间的函数,长期使用会对晶体管造成物理损坏。一直开着的电流会更快地造成损坏,因为晶体管得不到休息。”

数字电路没有恒定电流,有较高的噪声裕度。这意味着它们可以在不损失适当的功能和性能的情况下承受更大的退化。“它也更容易使用DFT扫描链、健康监测和数字逻辑冗余,”费萨尔补充道。“首先,插入DFT扫描链增强了可观察性和故障覆盖范围,从而提高了安全性和可预测性。此外,数字化实现允许对ip进行健康监控,在芯片随着时间的推移而退化时向系统和用户发出警报,以便在故障点之前进行适当的维护。最后,用于模拟功能的完整数字ip提高了安全性,因为更小的硅面积和更灵活的数字可配置性可以实现更大的冗余。”

片上监控在很多方面都有帮助。微软公司首席执行官Rupert Baines表示:“显而易见,但值得一提的是,芯片上的监控使得在开发过程中更容易确保系统正在做它所说的事情UltraSoC.”验证验证也变得容易多了。报告和可追溯性,这是ISO 26262和大多数其他安全标准中非常繁重的一部分,现在变得容易多了。你实际上有一个系统如何运行的记录,并证明它按预期运行。”


图2:发现系统故障和随机故障。来源:UltraSoC

一旦系统被部署,片上监控可以带来更多的好处。贝恩斯补充说:“你可能会发现事情什么时候‘超出了容忍范围’。”“例如,在更严重的故障之前,芯片或外围组件/ IO上可能会出现意外但非灾难性的行为。”

添加的一些逻辑还可以用于检测入侵或协助使用同步机制。

边信道攻击
一个侧通道攻击是允许信息泄漏的任何可测量的特征。主要的侧信道之一是功耗。Ansys的Gupta警告说:“采用加密块的芯片可以通过测量功率向黑客提供信息。”“他们的工作方式是监控功耗,并据此进行差分功率分析,甚至是常规功率分析,以找出频域频谱。然后他们就可以得到设备的密钥。”

然而,解决方案是有代价的。Rambus的Scott说:“防止最严重的侧通道攻击需要一些额外的能量、一些额外的面积和计算,以确保即使有数百万个周期的攻击也不会泄露信息。”“在一个极端情况下,侧通道攻击需要额外的区域。你无法逃避。但安全解决方案是一个连续体。我们面临的挑战是在对手的风险和回报之间取得平衡。”

解决方案空间通常涉及改变设计。Gupta补充道:“一种用于安全的技术是逻辑复制,但另一种技术是引入逻辑,这样你的功率波形就变得无趣,不会提供直接的信息泄漏。”“不幸的是,这可能会导致验证的噩梦,因为这种逻辑不会产生有用的函数,但出于安全原因必须进行验证。”

电源架构也被用作安全机制。Abadir解释说:“一些研究人员建议,微分逻辑可以确保在任何输入转换中几乎恒定的电流,因此PDN上的电流是恒定的,并且不包含关于处理数据的信息。”“显然,这大大增加了占地面积和电力开销。另一种想法是向网络添加虚拟电流,以隐藏来自处理单元的电流,防止攻击者攻击。同样,这也增加了面积和电力开销。”

有些攻击针对的是糟糕的体系结构决策,或者那些可能更看重性能而不是安全性的决策。帕特森说:“在‘幽灵党’的攻击中,他们利用推测,找出时机,并以每秒10kb的速度泄露信息。”“但这还没有结束。还有很多针对微架构的攻击正在进行中。Spectre实际上是我们如何定义计算机架构的一个错误。我们不关心时间,只要我们得到正确的答案。时间会泄露信息,所以我们必须重新设计计算机架构。”

工具和IP
目前很少有工具可以帮助理解安全性,更不用说将其构建成一个全面的优化流程了。“我们看到越来越多的人使用SystemC在芯片设计过程的早期建模,”Arteris的Shuler说。“你必须做很多假设,但当你在设计架构时,它确实提供了一个想法,让你知道哪里会出现问题。EDA行业正在推出系统级功率估计技术,但仍有改进的空间。”

有足够背景的刺激是一个非常困难但必要的步骤。最近发布的便携式刺激标准(PSS)Accellera在这方面可能会有所帮助。“拥有一组系统级场景是理解系统如何运行的第一步,”他说Adnan哈米德的首席执行官断路器验证系统.“一旦存在,你就可以进行有意义的分析。采用了基于图的验证技术的用户更容易理解他们所做的优化的含义。虽然安全性和安全性尚未被添加到PSS的要求清单中,但我们欢迎业界在这方面的想法。现在是一个好时机,因为委员会正在计划1.1版本将添加的功能。”

IP为这一切增添了另一个元素。虽然大公司出于责任原因支持他们的产品,但开源软件的目标是什么还不清楚。

“如果你看看软件,就会发现IP重用的情况非常普遍,”他说Aart de Geus的董事长兼联合首席执行官Synopsys对此.“在软件领域,有很多人在做开源软件,这些软件正在被重用。有很多非常有效的重用。但是它有多安全呢?是谁干的?安全吗?如果有问题,会有人解决吗?你会遇到所有这些问题。”

结论
在设计过程中,行业不能将安全和安保视为一个无关的层面。架构和优化系统必须考虑功率、性能、面积和安全性。一个不把安全性作为重要设计考虑因素的系统是不安全的,只关注性能将导致不可预见的后果。

-Ed Sperling对本文也有贡献。

有关的故事
安全加安保:解决方案和方法
第2部分:连接到互联网增加了安全关键市场的新需求。
5nm设计进展
在功率、性能和面积方面的改进要困难得多,但解决方案正在成为人们关注的焦点。
芯片老化加速
随着先进节点芯片被添加到汽车中,数据中心内部的使用模式发生了变化,关于可靠性的新问题浮出水面。
从内部确保芯片可靠性
芯片内监控技术在汽车、工业和数据中心应用中不断发展。
技术讲座:ISO 26262深入
在汽车电子市场站稳脚跟所需要的。
ISO 26262统计数据
科技讲座:安全标准的统计基础。



留下回复


(注:此名称将公开显示)

Baidu