18lickc新利
的意见

可重构AI soc和单片机的构建块

从神经网络推理获得最佳性能,您需要大量的mac /秒。

受欢迎程度

FPGA芯片是在今天的许多人工智能应用程序中使用,包括云计算数据中心。

嵌入式FPGA (eFPGA)现在成为人工智能应用程序使用。第一次公开客户做AI EFLX eFPGA哈佛大学,谁会在边缘热芯片8月20日提交论文使用EFLX AI处理:“16 nm SoC与高效和灵活的加速度为智能物联网设备款。”

我们有其他客户的第一个问题是,“多少GigaMACs每平方毫米/秒你能执行”?

使用fpga今天在人工智能,因为他们有很多的mac。(在这个博客的后面看到为什么mac /第二对AI)很重要。

EFLX4K DSP核心其实有很多,或者一般来说,更多的DSP MAC每平方毫米比其他eFPGA和FPGA产品相对于附近地区,但MAC设计数字信号处理和对于AI影响需求。人工智能不需要22×22乘数和不需要pre-adders或一些其他的逻辑在DSP的MAC。

但我们可以做得更好通过优化eFPGA AI:取代signal-processing-oriented DSP AI-optimized mac电脑的8×8蓄能器,可选配置16×16和16×8或根据需要8×16,和分配更多的mac eFPGA核心的面积。

结果是EFLX4K人工智能核心,> 10 x GigaMACs每平方毫米/秒的任何现有eFPGA或FPGA。

EFLX4K AI核心有8位mac(8×8乘数与蓄电池),也可以配置为16位mac, 16×8 mac或8×16 mac的要求,可重构。每个核心有441个8位mac在坏的情况下可以运行~ 1 ghz的条件(125 c Tj, 0.72 vj,慢慢的角落)~ 441年通用汽车金融服务公司(gmac)为每个EFLX核心/秒。相比之下,40 mac在最坏的条件~ 700 mhz EFLX4 DPS核心28 gmac /秒。

为什么mac电脑AI的关键?
下面是一个非常简单的神经网络图。神经网络输入层的过程。例如,如果输入层是一个1024×768图片,会有1024×768 = 786432输入每个R, G, B分量!输出层神经网络的结果:也许识别的神经网络建立了一条狗和一只猫和一辆汽车和一辆卡车。隐藏层从原始输入所需的步骤去实现高信心输出:通常有很多比这层。

神经网络是一种近似的人类大脑中的神经元收到数十或数百个其他神经元的输入来生成自己的输出。在上面的示例中,第一个隐层7“神经元”收到的每个输入5输入的输入层。上面红色所示输入收到的第一隐层的神经元。

数学上,输入乘以一个独特的体重(体重计算在早期训练阶段),然后总结,然后“激活”产生神经元的价值。

你可以看到multiply-accumulates形式的矩阵乘法的大部分所需的数学计算神经网络。

在一个实际的神经网络,矩阵有数百万条目和不实用的硬件矩阵乘法器那么大。相反,矩阵乘法分解成块,在可用的硬件“适合”。

因此处理神经网络快速通过拥有最大的MAC数组你买得起,它运行在最高频率可以实现。

有MAC可重构阵列的原因是神经网络的算法发展迅速,所以硬连接的解决方案可能会变得过时早于一个可重构。

EFLX4K AI今天Verilog或VHDL的核心是可编程的。在未来,Tensorflow和/或咖啡eFPGA编程可用。

像所有EFLX核心,EFLX4K AI可以平铺成大数组多达7×7 (> 20 TeraMACs /秒在坏的情况下操作条件)。EFLX4K AI核也可以混合在数组和其他EFLX4K核心,逻辑和DSP。

看到www.flex-logix.com/eflx4k-ai下载一个目标规范EFLX4K AI的核心。EFLX4K AI核心可以实现在任何CMOS工艺在大约6 - 8个月。



留下一个回复


(注意:这个名字会显示公开)

Baidu