中文 英语

浮点8能解决AI/ML开销吗?


当媒体在热议ChatGPT的图灵测试(Turing Test-busting)结果时,工程师们正专注于运行大型语言模型和其他深度学习网络的硬件挑战。ML的首要任务是如何用更少的电力更有效地运行模型,特别是在自动驾驶汽车等关键应用中,延迟成为生死攸关的问题。我已经…»阅读更多

转换加速器芯片的AI模型


人工智能就是要加速数据的移动和处理。Flex Logix的解决方案架构师Ali Cheraghi讨论了为什么需要将浮点数据转换为整数点数据,这将如何影响功率和性能,以及量化的不同方法如何在这个公式中发挥作用。»阅读更多

新AI处理器架构面临的挑战


投资资金正大量涌入为数据中心开发新的人工智能处理器,但这里的问题是独特的,结果是不可预测的,竞争对手财力雄厚,产品非常有粘性。最大的问题可能是有关终端市场的数据不足。在设计一个新的AI处理器时,每个设计团队都必须回答一个基本问题——多大的灵活性……»阅读更多

基于INT4优化的卷积神经网络


Xilinx在Xilinx硬件平台上提供了一个INT8 AI推理加速器——深度学习处理器单元(XDPU)。然而,在一些资源有限、高性能和低延迟的场景下(如资源功率敏感的边缘端和低延迟的ADAS场景),需要对神经网络进行低比特量化,以实现比提供更低的功耗和更高的性能。»阅读更多

基于断言的VIP浮点硬件的形式化验证


整数或定点算术的硬件设计相对简单,至少在寄存器传输级别上是这样。如果可以用这些格式表示的值范围和精度不足以满足目标应用程序的要求,则可能需要浮点硬件。不幸的是,浮点单元设计起来很复杂,而且验证起来也很困难。自从…»阅读更多

BFloat16用于AI推断的优势


基本上所有的人工智能训练都是用32位浮点数完成的。但是使用32位浮点进行AI推理成本高、耗电大、速度慢。8位整数的量化模型速度快,功耗低,是对资金、资源和时间的重大投资。现在BFloat16 (BF16)为许多用户提供了有吸引力的平衡。BFloat16基本上提供t…»阅读更多

使用浮点FMA降低延迟、功率和门数


当今的数字信号处理应用,如雷达、回波抵消和图像处理,对动态范围和计算精度的要求更高。与定点算术单元相比,浮点算术单元具有更高的精度、更高的动态范围和更短的开发周期。缩短设计推向市场的时间比以往任何时候都更重要。Algori……»阅读更多

周回顾:设计,低功耗


Tools & IP UltraSoC推出了以功能安全为重点的Lockstep Monitor,这是一组可配置的IP块,支持协议,可用于在两个或多个冗余系统之间交叉检查输出、总线事务、代码执行和寄存器状态。它支持所有常见的锁步/冗余架构,包括全双冗余锁步、分割/锁、主/检查器和…»阅读更多

正式数据路径验证


Synopsys的形式化验证应用工程师J.T. Longino深入研究了如何通过将形式化求解器和方法应用于设计的数据转换领域而不是控制路径领域,从而在数据路径设计中实现可信度。https://youtu.be/n1zO3GxEZVI点击这里查看其他技术讲座视频。»阅读更多

在人工智能硬件中实现数学算法


pb级的数据在边缘设备和数据中心之间有效传输,以处理和计算人工智能功能。精确和优化的功能硬件实现减轻了处理单元必须执行的许多操作。随着基于人工智能的系统中使用的数学算法不断发展,在某些情况下趋于稳定,在硬件中实现它们的需求也在增加……»阅读更多

←老帖子
Baidu