中文 英语

优先级集成电路设计的转变

AI,边缘应用程序驱动设计团队寻找新的方法来达到最好的性能/瓦特。

受欢迎程度

急于AI造成周围的边缘和新的应用程序设计策略的转变对每瓦特性能最高,而不是最高的性能或能力最低。

这可能听起来像式的吹毛求疵,他设定一个混乱的运动在如何处理更多的数据更快没有仅仅依靠更快的处理器和加速器。几个因素推动这些变化,包括放缓摩尔定律这限制了传统选项的数目,推出人工智能无处不在,激增的数据从多个传感器,摄像头和更高的分辨率和图像。此外,更多的数据被运行卷积神经网络深度学习推论系统,带来巨大的数据处理负载。

“随着半导体缩放放缓,但处理需求的增加,设计师会为那些需要开始更加努力的工作性能和效率收益,”拉塞尔·克莱恩说,HLS平台总监导师,西门子业务。“优化任何系统时,首先需要关注最大的效率低下。关于嵌入式系统的数据处理,通常将软件。”

摩尔定律在其'时,处理器设计师有许多盖茨他们不知道如何处理,克莱恩说。”一个答案是放置更多的核心,但程序员不愿采用多核编程范例。另一个答案是让处理器尽可能快而不考虑区域。一项功能,可以增加10%的速度的处理器被认为是赢,即使它的规模翻了一番,处理器。随着时间的推移,高端处理器捡起大量的膨胀,但没有人真正注意到或关心。处理器被印在越来越高效和致密硅。MIPS是唯一重要的指标,但如果你开始关心系统级效率、臃肿的处理器,和特别是软件上运行它,可能需要一些审查。”

软件有很多非常可取的特点,克莱恩指出的,但即使是精心编写的软件是快速和高效的相比,相同的功能在硬件中实现的。“移动处理器算法从软件到硬件可以提高性能和功耗,因为软件本身是不会带来性能需要满足推论的要求,高分辨率的视频处理,或5克。”

对速度的需要
同时,交通数据的速度在增加,并有新的要求高速接口来访问该数据。“高速接口和并行转换器网络链的不可分割的一部分,这些速度增加需要支持的最新技术要求人工智能(AI)、物联网(物联网),虚拟现实(VR)和多技术尚未设想,“指出Suresh Andani IP核心高级主管Rambus

最佳设计实践为高性能设备包括定义和分析解决方案空间通过准确完整系统建模;利用系统设计和并行工程首次对硅最大化;确保模型和硅之间的紧密相关性结果;利用使用系统设计方法;和包括内置测试功能支持启动、表征和调试,他说。

有很多方法可以提高每瓦特性能,而不仅仅是在硬件或软件。Kunle Olukotun,节奏设计系统的电气工程和计算机科学教授、斯坦福大学说,放松精度、同步和缓存一致性可以减少来回需要发送的数据。可以进一步减少了特定于域的语言,不需要翻译。

“你可以限制表达对于一个特定的领域,“Olukotun在最近的演讲中说。“你也可以利用并行模式和功能数据放入并行模式基于表示。你可以优化位置并利用并行性。”

他指出,灵活的映射数据更有效。可以利用的数据并行性,模型的并行性,并根据需要动态精度。此外,数据流可以分层使用更广泛的算法和硬件之间的接口,允许并行模式,外显记忆层次结构,分级控制和显式参数,都是非常有用的在促进每瓦特性能极其performance-centric应用程序。

灵活性的设计一直是优化每瓦特性能的权衡,和许多新人工智能芯片开发一直在努力将经过调优的硬件和软件结合到设计同时还留下足够的空间正在发生的变化的算法和不同的计算任务。

“你可以花6到9个月的映射如何削减工作,并提供快速接受新市场的一大障碍,”斯图尔特说阴,研究员、研究架构主管手臂研究。“大型操作系统是一组功能在系统中一个特定的域可能会执行一个通用的核心。但是你可以加入的灵活性如何分区,使循环更快。基本上可以归结为您使用一个SoC的资源。”

阴指出,一旦确定了一个共同的子集,然后可以通过一个专门的某些功能eFPGA或使用3 d集成。我们已经从最初的3 d集成微体系结构,可以减少循环和分支预测。什么“你看到的是所花费的时间从垂直加载/存储处理器和这样做,你可以改变3 d microarchitectural假设建立了特定的假设。结果在不同延迟。”

不同的承担相同的问题是限制的数据量需要在第一时间进行处理。这是特别重要的在边缘系统,如汽车,每瓦性能是至关重要的由于有限的电池供电,需要实时的结果。改变这一方程的一种方法是大幅限制发送的数据量集中处理系统在车辆通过预审传感器水平。虽然不是每瓦加快处理,实现更快的结果用更少的力量。

“你可以提供一个合理的计算能力的传感器,你可以减少传感器识别的数据通过预选,”本杰明Prautsch说,先进的混合信号自动化集团经理弗劳恩霍夫IIS的自适应系统的工程部门。“所以如果你看着正在发生的事情在一个房间里,第一层可以确定如果有人在那里。可以使用相同的生产线。您还可以运行款计算并行的方式更有效。”

此外,人工智能芯片,像许多高性能设备,倾向于开发热点,指出理查德•McPartland技术营销经理Moortec。“人工智能芯片的设计是为了解决巨大的培训和推理处理任务,”他说。“他们通常都是非常大的在硅谷地区,先进的成百上千的核心finFET过程消耗大电流- 100安培或更多在供应电压小于1伏特。与人工智能芯片功耗至少几十瓦,但往往超过100瓦,它应该不足为奇了最佳设计实践包括芯片温度监测。不仅仅是一个传感器,但通常温度传感器分布在整个集群的处理器和其他街区。芯片监控应考虑早期的设计流程,包括在地板上规划,而不是添加为马后炮。至少,从热失控的温度监测可以提供保护。但准确的温度监测还支持数据吞吐量最大化的减少节流计算元素。”

芯片电压监测与多个有意义点也是推荐的高性能设备,如人工智能芯片,他继续说。“这应该包括在设计流程的早期监测供应电压在关键电路,如处理器集群,以及供应供应针和电路块之间的下降。电压会枯萎时人工智能芯片开始操作负载下,并被其中,这可以在芯片设计阶段很难预测后来由另一个团队编写的软件。包括电压上点什么让能见度的内部芯片供应,是非常宝贵的,芯片启动阶段,以及降低功耗最小化警卫乐队。”

探测器过程也是一个必备的高性能设备,如人工智能芯片,McPartland说。“这些启用快速和独立验证过程性能和变异,不仅die-to-die在大型个人死在先进的节点。此外,他们可以使用功率优化,如减少电力消耗通过电压电压保护频带的扩展计划最小化per-die基础上基于过程的速度。低功率相当于高处理性能在人工智能世界,处理能力在哪里经常受到热力和动力问题。

人工智能算法性能的挑战
人工智能的一个重要的考虑和其他高性能设备是实际表现是未知的,直到应用程序运行结束。这个问题对于许多人工智能处理器公司坚持认为他们可以建立一个更好的硬件加速器矩阵数学和其他人工智能算法比下一个人。

说:“这是他们的关键区别罗恩·洛曼,物联网战略营销经理Synopsys对此。“一些公司可能会在第二次或第三次的设计,而更大的球员在其第三或第四设计,每次他们学习的东西。数学变化一样迅速他们可以得到一个芯片,这是帮助情况下,但这是一个游戏,谁能获得最高的性能数据中心。这是现在向下运动边缘计算。这些AI加速器被建立在本地和本地服务器现在,他们想要找到利基在每瓦特性能和为特定的应用程序。但是在那个空间,他们仍然需要适应许多不同类型的人工智能功能,无论是语音还是音频或数据库提取或愿景。这是很多不同的事情。还有的人构建的应用程序,比如ADAS。这是一个非常具体的用例,他们可以更具体的什么建筑,所以他们知道他们可能想要的模型,虽然也变化非常迅速。”

如果设计团队有更好的处理在应用程序和使用情况下,他们可以看每个不同的特定空间,无论是移动或边缘计算,或汽车。”你可以看到上衣,只是纯粹的性能、数量级的增长在过去的几年中,“洛曼说。“最初的移动设备,要处理人工智能在顶部(每秒tera操作)。现在你看到16顶在这些移动设备。这就是他们开始,说,“这是总的方向,因为我们必须处理许多不同类型的人工智能功能的手机。你看看ADAS,这些家伙甚至之前的手机。现在你看到35 ADAS上衣为单个实例化,持续增长。在边计算,他们基本上缩数据中心的设备更加高效,这些应用程序可以介于50到数以百计的上衣。这就是你开始。”

然而,第一代人工智能体系结构常常是非常低效的他们想要实现的是什么,因为他们试图做太多。如果实际的应用程序可以运行,结构可以显著优化,因为它不仅仅是一个处理器或只做苹果的能力。这是一个从内存访问的函数系数,然后处理它们非常有效。这也不仅是添加一个芯片上静态存储器来解决这个问题。建模的IP,如DDR实例化,不同进行不同的访问功能,不同类型的动态随机存取记忆体配置,或LPDDR和DDR,可以找到最佳方法在系统开发之前使用原型设计工具和系统探索工具完成。

“如果开发团队真正的算法更有效,”洛曼说。“很多人使用ResNet-50作为基准,因为这是比上衣。但是人们远远不止于此。你看到自然语言理解的语音应用程序。ResNet 50可能几百万系数,但其中一些现在数十亿的系数,这甚至不是代表。越多,代表你可以得到的应用程序中,更准确的说你可以定义你的SoC架构来处理这些事情。”

有很多感人的片段,你可以做更多的建模前期与实际IP,你越好。“这就是一些牵引发生,出现在许多方面。如此重要的记忆碎片,处理,如此重要。甚至为传感器输入的接口,就像MIPI,或音频接口。所有的体系结构可以优化算法的基础上,它比它一直都是没有什么不同。如果你运行实际的软件,你可以继续优化更有效。但是有一个需要不断成长的每瓦特性能。如果估计可信,有些说,20%到50%的电力将被人工智能,这是一个巨大的问题。刺激的趋势更本地化的计算,并试图压缩这些东西到应用程序本身。所有这些需要不同类型的架构来处理不同的你想要完成的功能和特性,”洛曼说。

实力确实起到了重要的作用在这里因为所需的内存容量,系数的数量变化,以及数学模块的数量。

“你可以把吨乘/积累,把它们都放在芯片,但你也必须做所有其他的事情之后,”他说。”,包括数据的输入和输入数据的条件。例如,对于音频,您需要确保没有瓶颈。缓存需要这些数据多少运动?有各种各样的不同的体系结构权衡,所以你能做的更多的建模,您的系统就会越好如果你知道应用程序。如果您创建了一个通用的一个,然后运行一个实际运行的系统,你可能不会得到你所认为的的准确性。有很多工作做改善,随着时间的推移,和改正的足迹,他们需要准确性和力量。你可以从一些一般特征开始,但每一代很快我看到正在更多的性能,更少的力量,更优化的数学,更优化的架构,能够不只是一个标准的SRAM但多端口存储器。这意味着你正在做两个访问,所以你可能有你想要尽可能多的乘/积累。但如果你可以做一些读和写在一个单一的周期,节省出的力量。 You can optimize what that looks like when you’re accessing, and the number of multiply/accumulates you need to do for that particular stage in the pipeline.”

结论
如此多的高性能和艾城的活动空间,这是一个激动人心的时刻的半导体生态系统在这些应用程序。有一个巨大的创业活动,与思维进化的更一般的心态,“我们能做神经网络的数学,”一个每个人都能做的特定神经网络在不同领域的数学,洛曼说。“声音你能做到,你可以做到的愿景,你能做到对数据挖掘有特定类型的视觉、声音或声音,你可以优化对某些事情。”

这只会让AI市场机会更令人兴奋的技术分支到许多不同的领域扩展现有的或新的领域,开发技术和工具生态系统发现新方法使这一切成为现实。

编者斯珀林对此报道亦有贡献。



留下一个回复


(注意:这个名字会显示公开)

Baidu