白皮书

与INT4卷积神经网络优化

INT8提供更好的性能比浮点比较精确的人工智能推理。但当INT8与有限的资源无法满足所需的性能,INT4优化就是答案。这个INT4优化达到真正的硬件性能提升了77%相比,当前INT8解决方案。

受欢迎程度

赛灵思公司提供了一个INT8 AI推理加速器在Xilinx硬件平台,深度学习处理器单元(XDPU)。然而,在一些资源有限、高性能和低延迟的场景(比如resource-power-sensitive边缘,低延迟ADAS场景),低比特量化神经网络需要实现低功耗和性能高于由INT8提供。然而,极低比特量化(如二元或三元)精度下降。

因此,多级hardware-friendly量子化方案4比特激活和4比特权重(4 a4w)达到更好的准确性/资源的权衡。本白皮书描述精度的实现加速器的CNN 4比特XDPU Zynq UltraScale + MPSoC和Zynq - 7000 SoC家庭(16 nm和28 nm),充分利用了DSP功能通过有效地映射卷积计算。这个解决方案达到2 x XDPU层次的性能。在2 d ADAS系统检测任务,实现了一个推理的速度230 fps Zynq UltraScale + MPSoC ZCU102板,这是一个8位XDPU 1.52 x的性能收益。此外,该解决方案达到类似的结果完全ADAS系统的精确模型在不同的任务。

点击在这里阅读更多。



留下一个回复


(注意:这个名字会显示公开)

Baidu