中文 英语

可靠性定义正在改变

系统的复杂性和脆弱性引发了一个问题,即什么构成了一个功能齐全的设计。

受欢迎程度

自从集成电路发明以来,可靠性就被定义为芯片持续工作的时间。它要么打开,按照设计的方式工作,要么就没有。但这个定义不再是非黑即白。SoC的某些部分,甚至是IP或内存块,可以在其他部分不能工作时继续工作。有些可能会断断续续地工作,或者以较低的速度工作。另一些可能会升高温度,直到它们停止或减速。

这在电子行业中引发了一些有趣的问题,从法律责任,到功率和性能的设计目标,再到如何区分任何正常运行的系统(尤其是关键系统)与那些无功能或功能不完善的系统。就像系统变得越来越复杂一样,围绕它们的指标也越来越复杂。

“这不再仅仅是系统老化的问题,”微软系统开发套件产品营销集团总监Frank Schirrmeister说节奏.“我们开始看到更普遍的问题,比如系统是否达到了最初设定的预期。如果你有热问题,系统可能在做它应该做的事情。有一个复杂的逻辑来打开和关闭它,你已经做了性能验证,以确保它所有工作。但是如果你在6分钟内运行一个沉重的计算负载,由于热效应,它可能会变慢。所以处理器的性能会随着时间的推移而下降。在演出不达到你的预期之前,你还能演多久?”

更大的图景
可靠性测量也不会仅限于单个设备。它越来越多地涉及到一个设备连接到一个或多个其他设备,可靠性可能像最初设备的设计一样依赖于这些其他设备。以智能汽车为例,它可以与其他智能汽车通信,以防止在盲道附近发生碰撞。但是,如果其中一辆车未能与迎面而来的车沟通并提醒它会发生什么呢?即使两种通信系统都正常工作,但一辆车比另一辆车更新,使用不同的通信协议,也可能发生这种情况。

“嵌入式设备的组合方式正在发生变化,”微软公司系统级工程部门总经理Serge Leef说导师图形.“在过去,一切都是一体的。有硬件、存储和软件,包括实时操作系统或其他操作系统、中间件和应用程序。但越来越明显的是,今天和明天的嵌入式设备将是不同的。EDA一直专注于盒子,但这已经不合理了。你必须解决大局。”

这一远景远远超出了正在设计和测试的设备,甚至包括智能车库开门器这样简单的东西,它可以通过互联网由智能手机控制。“该设备现在有三个元素:受机械或本地控制的边缘节点,与边缘节点交互的中心节点,以及运行在移动客户端上并通过集线器与设备交互的应用程序。”

其中任何一个领域的问题都可能影响其他两个领域的可靠性。当问题确实发生时,很难确定故障在哪里。它可能是硬件,可能是控制硬件的软件,也可能是在通信基础设施中,不受参与创建设备的每个人的控制。它可能是暂时的,也可能是永久的。

另一个可能影响性能的因素是数据访问,从而影响设备可靠性,比如两辆车通过云通信的情况。Steven Woo,解决方案技术副总裁Rambus他引用了idc的一份报告——他能找到的最保守的报告——该报告预测,2011年至2021年间,数字数据将增长44倍。

“你必须搜索越来越多的数据,记忆力必须提高,”Woo说。“链路性能是数据中心的限制因素。计算和I/O也需要改进。”

这本身可能不会影响数据中心的可靠性。很难将数据激增导致的性能下降称为可靠性问题,除非为该数据中心的客户提供适当的响应时间保证。但这无疑会使依赖快速响应作为设计一部分的设备更难满足其性能目标。举个例子,两辆车高速驶过一个盲道。

工具失灵的地方
这在很大程度上属于一个尚未定义的灰色地带。对于外界来说,有时甚至在设计领域都不太明显的是,当开发芯片的工具发展到自己的灰色区域时会发生什么。

“不太为人所理解的是功能验证不完整的结果,”百度首席技术官伯纳德•墨菲(Bernard Murphy)表示Atrenta.“时钟同步从来不是一个完美的解决方案,它可以减少平均故障间隔时间。它很少被描绘为整个SoC的后果。有计时例外。我们永远不知道功能性验证是多么不完整。但要达到99%几乎是不可能的报道.不过,我们开始看到人们对量化大型设计的不完整性感兴趣。”

墨菲指出,当设备跨市场使用时也存在问题。因此,大型应用处理器可能不需要使用超过几年,但同样的技术如果包含在汽车信息娱乐系统中,则需要使用10年或20年。它还必须在更恶劣的环境中工作。

在设计的前沿,事情变得更加令人困惑。以10nm工艺的IP开发为例。

Navraj Nandra表示:“由于上市时间安排严格,客户希望这些IP块在第一次实例化时就能起作用Synopsys对此DesignWare模拟和混合信号IP。“这就需要相互关联香料各种纵横比的晶体管、电容器和电阻等基本IP构件的模拟和硅特性数据。必须选择统计上有意义的器件数量,以确保模拟到硅的相关性,不同的布局和密度依赖性为电阻/晶体管匹配和金属不匹配提供数据双模式而且三重模式10海里。”

我们有可能从中得到一些见解。环形振荡器和运算放大器等工具可以提供10nm工艺的门延迟和模拟性能的早期指示。目前的最佳实践包括过度应力装置,以评估由于负偏置和正偏置温度不稳定、热载流子注入和静电放电对可靠性的影响。但Nandra指出,也存在一些持续的技术挑战——确保使用早期版本的代工设计套件开发的IP硅(几乎一直在变化),以及满足PPA要求。两者都是可靠性方程的一部分。

安全
最后,即使所有的技术都按计划工作,在每个流程节点和几乎每个物联网设计中都存在巨大的安全漏洞——即使它只是一个设计良好的硬件或软件所连接的部分。很明显,被泄露的设备不再可靠。但一个可能被泄露的设备也不可靠。

如今,安全领域出现了一种疯狂的活动,从银行和零售商的入侵,到政府针对网络犯罪和网络战的对策。它也在稳步蔓延到并购领域,最近的一个例子是手臂购买一个物联网软件安全公司为其嵌入式微控制器。

所有的处理器公司都在积极保护他们的核心。ARM已经有了用于划分内存和进程的TrustZone技术。英特尔在其处理器架构上采取了类似的策略,限制对核心架构的访问。还有Synopsys和想象力的技术其他受欢迎的处理器都是由苹果公司生产的。但真正的挑战在于,物联网通过许多通道开放通信——从用于连接多个网络的I/O到多层软件,再到片上和片外内存和存储。

甚至连天线都可能存在安全漏洞,而且在任何连接的电子设备中,天线的数量都在不断增加。公司产品工程与支持副总裁avek Sarkar表示:“有三件事需要考虑有限元分析软件.“其一是干扰。其次是耦合。第三是易感性。所有这些都会对芯片造成损害。”

结论
虽然工程师们只能控制他们自己的那部分生态系统,但未来在这些范围内,可靠性可能更难定义。每个部件都需要尽可能地设计,但这并不意味着它在现实世界中是可靠的,因为还有很多其他因素会影响它。

“你可以有一个99.9999999%可靠的部件,但故障可能来自某个99.9%可靠的部件。超音速.“问题是哪些最可能影响你。即使是ISO 26262(道路车辆-功能安全),也很少关注维修或延长寿命。在不好的事情发生之前,会有一份报告,但没有从错误中恢复或纠正错误的内容。”

温加德说,可靠性需要从以下几个方面来考虑:部件可能发生故障的原因、供应商的质量、晶体管电线的可靠性、使用的氧化物以及它们是如何分解的、逻辑层、软错误以及软件错误会发生什么。

但即使有了所有这些,这可能仍不足以维持运营。在新的世界秩序中,所有东西都与其他东西相连,可靠性可能越来越被视为一个相对的术语,它取决于设置、连接的对象以及使用它的人。根据使用模式的不同,不同的人,不同的公司可能会有很大的不同。



留下回复


(注:此名称将公开显示)

Baidu