家

白皮书

与INT4卷积神经网络优化

INT8提供更好的性能比浮点比较精确的人工智能推理。但当INT8与有限的资源无法满足所需的性能,INT4优化就是答案。这个INT4优化达到真正的硬件性能提升了77%相比,当前INT8解决方案。

2020年12月1日—:赛灵思公司

赛灵思公司提供了一个INT8 AI推理加速器在Xilinx硬件平台,深度学习处理器单元(XDPU)。然而,在一些资源有限、高性能和低延迟的场景(比如resource-power-sensitive边缘,低延迟ADAS场景),低比特量化神经网络需要实现低功耗和性能高于由INT8提供。然而,极低比特量化(如二元或三元)精度下降。

因此,多级hardware-friendly量子化方案4比特激活和4比特权重(4 a4w)达到更好的准确性/资源的权衡。本白皮书描述精度的实现加速器的CNN 4比特XDPU Zynq UltraScale + MPSoC和Zynq - 7000 SoC家庭(16 nm和28 nm),充分利用了DSP功能通过有效地映射卷积计算。这个解决方案达到2 x XDPU层次的性能。在2 d ADAS系统检测任务,实现了一个推理的速度230 fps Zynq UltraScale + MPSoC ZCU102板,这是一个8位XDPU 1.52 x的性能收益。此外,该解决方案达到类似的结果完全ADAS系统的精确模型在不同的任务。

点击在这里阅读更多。

与INT4卷积神经网络优化

留下一个回复取消回复

技术论文

热门文章

芯片制造商的数据泄漏成为更大的问题

重新考虑在美国工程教育

创业融资:2023年4月

挑战成长为倒装芯片创建小疙瘩

如何计量工具堆栈在3 d NAND闪存设备

知识中心
实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Nanoimprint终于找到立足点

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

最近的评论

关于

导航

与我们联系

与INT4卷积神经网络优化

留下一个回复取消回复

技术论文

热门文章

芯片制造商的数据泄漏成为更大的问题

重新考虑在美国工程教育

创业融资:2023年4月

挑战成长为倒装芯片创建小疙瘩

如何计量工具堆栈在3 d NAND闪存设备

知识中心实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Nanoimprint终于找到立足点

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索