新方法的可靠性

芯片正变得更加可靠,但不一定因为事情没有打破或有更多的冗余电路。它变得更加复杂。

受欢迎程度

可靠性的定义集成电路的发明以来没有变化,但是如何实现开始改变。

在安全至上的系统中,以及在航空航天等市场,可靠性的要求非常严格,他们往往需要冗余线路和有充分的理由。一个PanAmSat故障1998年由锡晶须为4500万用户增长了寻呼机。在汽车,召回通常花费数亿如果不是数十亿美元。在消费电子产品,返回的故障设备可以毁掉一个制造商的声誉。

但并非所有设备完全失败。事实上,可靠性已越来越成为一个相对的概念,因为并不是每一个失败,和一些可以冷却至至少一个点。如果电子邮件失败,电话是全损。但是如果需要半秒钟再下载一个消息,它可能不是明显给用户。

SoC制造商一直在自我修复电路在大多数设备多年来只是为了这一目的。当一些优惠,设备自动重新路由信号冗余电路,通常属于旖旎的范畴。这种方法的问题是,太多的利润影响功率和性能先进的节点。

不那么常见的一种方法,一个是刚刚开始被使用,是不能解决所有问题。相反,识别和理解的问题可能就足够了。设计与20亿个晶体管,假设是,并不是所有的晶体管的工作,并不是所有的工作的生活设备。即使在8核处理器,并不是所有的核心可能同样的函数。但这可能不是一样明显的用户与工作台的工程师充满复杂的工具。

“这是可靠性和灵活性之间的区别,”说另Castagnetti,杰出工程师在大规模集成电路。“有工作做现在这个大学水平。高级节点发生了什么是你开始看到更多的区域做额外的事情几乎没有成本,和在这些节点有更多的东西可以做,你可能没有需要做在过去使系统更健壮。”

他说思想的转变的关键是,如果出现问题,这并不一定是招数只要不伤害系统。

这绝不意味着电子产品变得不可靠。事实上,正好相反。他们变得更reliable-usually痛苦的对于设计团队。

“可靠性测试覆盖率是99.2%,”Mike Gianfagna说eSilicon营销副总裁。“现在高达99.8%。多,难以实现,但人们要求它。它需要更多的测试和分析更多的角落。”

随着更好的报道,不过,处理电路故障的方法是改变。

“有很多复制引擎死,”塔希尔说Madraswala, Open-Silicon首席运营官。“如果有一个16 x 16批处理单元和三个节点不工作,软件无法识别。但仍有足够的人来做这个工作。”

这是关键。设计是昂贵的,但在高级节点有大量的硅做一些有趣的事情。它不是免费的,本身,但它是现成的。在复杂的soc,都有足够的可用处理单元,这样当一个人失败了,其他人可以力挽狂澜。能够利用这些额外的核心或处理器需要动态故障转移功能被编程的软件工作绝不是微不足道的。但它已经被证明能对感冒生效在固态硬盘中,在其他地方,耗损闪存控制器的功能是设计的关键部分,解决方案产品经理乌尔里希Schoettmer说效果显著。

”在逻辑方面是很常见的级微处理器,gpu,应用处理器等等通过前期融合处理市场的装箱,以及功能缺陷,如降低较小的缓存,或从四单元双芯的单位,“Schoettmer说。“一个动态功能冗余尚不普遍,但迟早会。”

他指出,虽然处理器制造商多年来一直在处理这些问题,他们现在迁移到更广泛的移动市场利润这么紧的预算测试和质量和可靠性的需求正在下降不同步。

他不是独自一人在看到一个转变。在超音速Wingard,首席技术官,将晶体管的增长视为维护可靠性的关键。“底层硅是不可靠,这就意味着你需要更多的晶体管来实现相同的可靠性。你可能没有选择,只能使用额外的晶体管只是发现问题。在某些情况下和错误是好的,只要你能找到他们。但是改变的是,你不添加额外的电路一定要解决这个问题。这些都不是平行的大门。”

随着时间的推移,可靠性
虽然硬件工程师认为在功能方面,可靠性实际上是一个测量的功能随着时间的推移通常设计在使用后在现实世界中。由设计团队构建一个健壮的设计,但有多么强劲将取决于多种因素,从个人使用模型和服务年限,设备使用。锡须问题了mil /航空领域,特别在外层空间,但锌胡须专用数据中心内部造成损害。

“芯片上的系统集成的一个副作用是,你必须多注意潜在的失败,“Pranav莎说,首席技术官在真正的意图。“这有积极的一面。集成在单一基质的一切意味着电气问题更好的理解。这就是为什么我们已经能够开发静态问题解决方案。另一方面,失败的代价也更大。但是如果你死锁,通常你可以解决一个问题在软件控制状态机的时机。你不必须建立过程。”

至少部分是什么推动这种变化是一个SoC扩散的处理器和内存。

说:“不是每个特性可能工作Open-Silicon Madraswala。“但在架构中加载有足够的特性来弥补。如果你还有一辆公共汽车,你可以重新路由信号。有很多软件编写使用多处理,和有很多复制引擎的死亡。所以如何实现可靠性的定义改变。”

老方法的变化
旧的方式保证可靠性是开创了第一次军事,然后由航空航天,最近的汽车行业。而不是依赖一个电路,三模冗余。对于每一个模块,故障转移中有两人——在mil /航空,最初担心的是辐射损伤,翻转一个内存从一个零,反之亦然。

“与设备几何图形缩小,有一个更大的辐射损伤的风险,”安吉拉•萨顿说,Synopsys对此员工为FPGA实现产品营销经理。“不是所有的辐射,所以更容易受到伤害。公司已经建立了监测设计错误检测和校正,并构建冗余电路。但他们也选择在他们想要应用这些技术,因为它是昂贵的。”

萨顿说,这不仅仅是纠错了,。与多模设备变得更加复杂,操作,各种状态可以中断,需要重置。

“监控软件就可以完成,”她说。但关键是要找出一些故障的原因。”

押注更好的软件
越来越多的工作软件,它被用于管理安全、可靠性和安全的。

“关键是如何确保你不是牺牲可靠性随着我们与更多的功能更强大的soc,“Kamran Shah说,营销主管导师图形。“我们开始看到认证标准,我们只使用在军事和航空航天。IEC61508年处理电可编程系统的功能安全。医疗设备有独立选举委员会62304年,汽车有ISO26262年。很多,这是由于软件的提高作用,但它的一部分也因为增加连接与物联网的设备。”

沙阿说,虽然硬件可靠性很好理解,软件要复杂得多。如果与其他设备的交互插入一个错误或错误进入软件,例如?这可能意味着完全不同的东西对于一个智能手机,一辆汽车和一个起搏器。事实上,它可能意味着不同的东西在每一个设备,这取决于系统的影响及其原因。

沙阿说,在软件,有很多方法来隔离信号使用1型虚拟机监控程序,快速重新启动使用可执行代码,而不是一个完整的操作系统。“但是有其他事情你一般不考虑软件越来越重要,如功耗是什么意思的可靠性。对于很多系统,可靠性定义为平均失效到达时间。能够降低功耗的被动冷却可以减少平均失效到达时间。”

未来
随着复杂性的增加,权衡的数量。与功率预算和性能规格,可靠性是一个固定数量与实际美元后果如果出现错误。支付12亿美元的罚款由丰田汽车意外加速的一个例子。所以由美国食品和药物管理局最近的胰岛素泵回忆,所以是目标安全漏洞。

“很多容错计算等设计概念是回来了,”史蒂夫·卡尔森说,集团营销总监在节奏的办公室的首席策略。“我们习惯称之为容错计算,它被下推到SoC验证和验证策略。架构上,而不是100%的硬件加速器您现在拥有了一个可编程的加速器,这样你就可以计划失败的风险更高。”

只是被钝力冗余处理所有这一切不再足够了,特别是在一个相互联系的世界上。所有这些必须考虑更详细和有效设计,在硬件和软件。

“弹性这将需要更多的逻辑,”库尔特·舒勒说,在Arteris营销副总裁。“冗余方式的可靠性,但弹性是一个优雅的使用其他路径故障转移当坏事情发生了。”

和坏事肯定会以一种soc很高的成本,系统的房子,卖给他们的公司,除非他们认为通过详细。



留下一个回复


(注意:这个名字会显示公开)

Baidu