18lickc新利

的意见

可重构AI soc和单片机的构建块

从神经网络推理获得最佳性能,您需要大量的mac /秒。

2018年7月10日,通过:杰夫•泰特

FPGA芯片是在今天的许多人工智能应用程序中使用,包括云计算数据中心。

嵌入式FPGA (eFPGA)现在成为人工智能应用程序使用。第一次公开客户做AI EFLX eFPGA哈佛大学,谁会在边缘热芯片8月20日提交论文使用EFLX AI处理:“16 nm SoC与高效和灵活的加速度为智能物联网设备款。”

我们有其他客户的第一个问题是,“多少GigaMACs每平方毫米/秒你能执行”?

使用fpga今天在人工智能,因为他们有很多的mac。(在这个博客的后面看到为什么mac /第二对AI)很重要。

EFLX4K DSP核心其实有很多,或者一般来说,更多的DSP MAC每平方毫米比其他eFPGA和FPGA产品相对于附近地区,但MAC设计数字信号处理和对于AI影响需求。人工智能不需要22×22乘数和不需要pre-adders或一些其他的逻辑在DSP的MAC。

但我们可以做得更好通过优化eFPGA AI:取代signal-processing-oriented DSP AI-optimized mac电脑的8×8蓄能器,可选配置16×16和16×8或根据需要8×16,和分配更多的mac eFPGA核心的面积。

结果是EFLX4K人工智能核心,> 10 x GigaMACs每平方毫米/秒的任何现有eFPGA或FPGA。

EFLX4K AI核心有8位mac(8×8乘数与蓄电池),也可以配置为16位mac, 16×8 mac或8×16 mac的要求,可重构。每个核心有441个8位mac在坏的情况下可以运行~ 1 ghz的条件(125 c Tj, 0.72 vj,慢慢的角落)~ 441年通用汽车金融服务公司(gmac)为每个EFLX核心/秒。相比之下,40 mac在最坏的条件~ 700 mhz EFLX4 DPS核心28 gmac /秒。

为什么mac电脑AI的关键?
下面是一个非常简单的神经网络图。神经网络输入层的过程。例如,如果输入层是一个1024×768图片,会有1024×768 = 786432输入每个R, G, B分量!输出层神经网络的结果:也许识别的神经网络建立了一条狗和一只猫和一辆汽车和一辆卡车。隐藏层从原始输入所需的步骤去实现高信心输出:通常有很多比这层。

神经网络是一种近似的人类大脑中的神经元收到数十或数百个其他神经元的输入来生成自己的输出。在上面的示例中,第一个隐层7“神经元”收到的每个输入5输入的输入层。上面红色所示输入收到的第一隐层的神经元。

数学上,输入乘以一个独特的体重(体重计算在早期训练阶段),然后总结,然后“激活”产生神经元的价值。

你可以看到multiply-accumulates形式的矩阵乘法的大部分所需的数学计算神经网络。

在一个实际的神经网络,矩阵有数百万条目和不实用的硬件矩阵乘法器那么大。相反,矩阵乘法分解成块,在可用的硬件“适合”。

因此处理神经网络快速通过拥有最大的MAC数组你买得起,它运行在最高频率可以实现。

有MAC可重构阵列的原因是神经网络的算法发展迅速,所以硬连接的解决方案可能会变得过时早于一个可重构。

EFLX4K AI今天Verilog或VHDL的核心是可编程的。在未来,Tensorflow和/或咖啡eFPGA编程可用。

像所有EFLX核心,EFLX4K AI可以平铺成大数组多达7×7 (> 20 TeraMACs /秒在坏的情况下操作条件)。EFLX4K AI核也可以混合在数组和其他EFLX4K核心,逻辑和DSP。

看到www.flex-logix.com/eflx4k-ai下载一个目标规范EFLX4K AI的核心。EFLX4K AI核心可以实现在任何CMOS工艺在大约6 - 8个月。

杰夫•泰特

(所有的帖子)
杰夫•泰特的创始人兼首席执行官Flex Logix。泰特拥有超过三十年的经验技术。他是Rambus的前任首席执行官,当前董事会董事Everspin技术。他收到了他从阿尔伯塔大学修读计算机科学,和哈佛商学院工商管理硕士学位。

可重构AI soc和单片机的构建块

杰夫•泰特

留下一个回复取消回复

技术论文

热门文章

重新考虑在美国工程教育

挑战成长为倒装芯片创建小疙瘩

如何计量工具堆栈在3 d NAND闪存设备

Chiplet计划就立马高速运转起来

腐蚀过程推向更高的选择性,成本控制

知识中心
实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Nanoimprint终于找到立足点

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

最近的评论

关于

导航

与我们联系

可重构AI soc和单片机的构建块

杰夫•泰特

留下一个回复取消回复

技术论文

热门文章

重新考虑在美国工程教育

挑战成长为倒装芯片创建小疙瘩

如何计量工具堆栈在3 d NAND闪存设备

Chiplet计划就立马高速运转起来

腐蚀过程推向更高的选择性,成本控制

知识中心实体,人们和技术探索

相关文章

真正的3 d更加困难,比2.5 d

Nanoimprint终于找到立足点

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

大的芯片技术和产业动态变化

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索