18lickc新利

的意见

优势的BFloat16 AI推理

推理吞吐量之间的良好平衡,准确性和易用性。

2019年10月3日,通过:杰夫•泰特

基本上所有AI训练是用32位浮点。

但做人工智能推理与32位浮点是昂贵的,耗电而缓慢。

8-bit-integer和量化模型,这是非常快速和最低的权力,是一个主要的投资资金,稀缺资源和时间。

现在BFloat16 (BF16)提供了许多用户的一个有吸引力的资产。BFloat16提供基本相同的预测精度为32位浮点而大大降低功率和提高吞吐量没有时间或美元的投资。

BF16相同的指数大小为32位浮点数,所以转换为32位浮点数是一个简单的删除(或多个技术,四舍五入)23位7位的分数。

这种转换,一个模型可以快速运行在任何支持BF16加速器。32位浮点相比,吞吐量将大约两倍内存带宽(权力)的大约一半。似乎很多分数位将削减预测精度下降,但谷歌表示最近的文章:“根据我们多年的经验培训和部署各种神经网络在谷歌的产品和服务,我们知道当我们设计云tpu神经网络更敏感指数的大小比尾数。”

注意,加速器,支持FP16以来没有一个简单的转换指数大小是更少。将FP32模型FP16需要类似于INT8量化。

硅储蓄更显著,随着谷歌在最近的一篇文章中说:“硬件乘法器的物理大小尺度的广场尾数宽度。尾数部分比FP16少,bfloat16乘数是典型的大约一半的大小硅FP16乘数,他们八倍小于FP32乘法器!”

谷歌首次发明了BF16第3代TPU和支持它的企业加速器现在包括手臂,Flex Logix, Habana实验室、英特尔和波计算。

BF16不会消除INT8因为INT8可以再次吞吐量的一半内存带宽的两倍。但对于许多用户来说,这将是更容易开始一个加速器BF16和切换到INT8后,模型稳定,卷保证投资。

BF16的优势很可能采用发运的所有加速器将增加至100%作为PCIe或其他卡格式。

为推理IP集成soc,所有选项都是INT除了Flex Logix nnMAX提供BF16 INT。

杰夫•泰特

(所有的帖子)
杰夫•泰特的创始人兼首席执行官Flex Logix。泰特拥有超过三十年的经验技术。他是Rambus的前任首席执行官,当前董事会董事Everspin技术。他收到了他从阿尔伯塔大学修读计算机科学,和哈佛商学院工商管理硕士学位。

优势的BFloat16 AI推理

杰夫•泰特

留下一个回复取消回复

技术论文

热门文章

周评:半导体制造、测试

芯片制造商的数据泄漏成为更大的问题

重新考虑在美国工程教育

新标准推动Co-Packaged光学

创业融资:2023年4月

知识中心
实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

Nanoimprint终于找到立足点

选择正确的高带宽内存

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

赞助商

最近的评论

关于

导航

与我们联系

优势的BFloat16 AI推理

杰夫•泰特

留下一个回复取消回复

技术论文

热门文章

周评:半导体制造、测试

芯片制造商的数据泄漏成为更大的问题

重新考虑在美国工程教育

新标准推动Co-Packaged光学

创业融资:2023年4月

知识中心实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

Nanoimprint终于找到立足点

选择正确的高带宽内存

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索