AI加速器矛隼飙升隐形

第二代推理加速器ASIC目标数据中心。

受欢迎程度

苗必达,这家创业公司矛隼科技公司。(GTI) 9月份从semi-stealth模式出现,最近宣布datacenter-focused第二代的神经网络加速器,首次针对端点。

GTI并不孤单:端点市场正在增长。到2022年,25%的端点设备将执行人工智能算法(推理神经网络应用程序),预测分析公司国际数据公司(IDC)。此外,25%的机器学习数据中心芯片运行在数据中心根据德勤将fpga和asic而不是gpu,目前处理大多数培训,和cpu处理大部分推理。

许多初创公司已经承诺提供新机器学习应用程序体系结构优化。英伟达,英特尔和建立的FPGA和SoC提供者列表所做的一样。大多数这些架构还没有商业化。

GTI的第一个产品,2801年代Lightspeeur ASIC,可用在有限的数量在拉斯维加斯消费电子展上推出今年1月,2018年。GTI协议与客户,包括三星、富士通和LG电子(LG Electronics),预计芯片出现在端点设备到今年年底。

2801年代在数据中心能够处理推理家务,但主要是设计为端点设备与非常低的功率,空间和热需求,根据马克•纳德尔GTI负责营销的副总裁。

“你得到的是将人工智能功能的能力从一个主机芯片和执行精度高和速度,主机是否GPU和CPU或别的东西,使用足够低的力量,您可以将其添加到手机或其他设备或边缘为数据中心构建成木板,”纳德尔说。

公司的第二代,2803年Lightspeeur AI加速器,是专门为推理在数据中心服务器并将打包在GTI-designed董事会通常会支持16每板芯片,纳德尔说。

董事会和芯片设计用于与现有货架和处理器,添加加速度不需要多少额外的权力或冷却,云提供商或潜在的ROI最大化数据中心所有者试图添加神经网络功能尽可能有效成本,纳德尔说。

回到未来
2803年10月22日宣布,五周后GTI正式从隐形。发展的时间尺度是不像似乎压缩。

大多数公司的方法和技术,它是指在研究论文领域特定架构卷积神经网络(DSA-CNN)是基于研究首席科学家GTI林杨开始作为一个在加州大学伯克利分校博士生。

1988年,杨了论文引入细胞神经网络在其他研究中也提到了近4000次出版以来,描述”方式使用神经网络的方式可以节约能源和过程数据更加迅速使用矩阵计算,超出了人们的想像,”纳德尔说。

Gryfalcon技术矩阵处理引擎Lightspeeur 2803 AI加速器。来源:Gryfalcon技术公司。

杨股票专利技术但无法开发商业因为它,像其他机器/人工智能方法,太计算密集型的可用的硬件。

当硬件,最后,迎头赶上,杨扩展工作他做的同时,调整到原始concept-shifting模拟处理数字所以大部分工作可以在内存中处理,减少权力和延迟,例如,纳德尔说。

结果是芯片设计的非常广泛应用程序优化的二维矩阵处理,使用嵌入式SRAM的ASIC靠近房子数据处理逻辑,允许数据快速处理没有将数据移动到所需要的能量和一个中央处理器。

第一代,2801年代Lightspeeur打包为一个独立的加速器和u盘设计与英特尔的竞争神经计算,是一个ASIC设计在一个矩阵处理引擎(MPE)在内存中使用人工智能处理(APiM) GTI的内存中实例化的商标近似计算在机器学习,成为流行处理器如谷歌的张量处理单元(TPU) ASIC,能力减少电力的使用提高吞吐量宽容的复杂的矩阵计算精度的初步研究结果。

“平衡cost-performance-energy方程一直是一个挑战对于开发人员想将AI-enabled设备市场规模,”在一份声明中称GTI创始人兼首席科学家林的杨9月18日宣布产品的首次亮相。“GTI创始团队一直在看这个挑战的行业奋斗几十年,相信我们的人工智能处理内存和矩阵处理引擎提供了一个优雅的解决方案,避免做出权衡。通过部署APiM和迈普标准,商品化ASIC, GTI是使我们的客户能够带来创新,AI-enabled设备群众。”

2801是7毫米x 7毫米ASIC设计的28 nm制程,与典型的300 mW电力行业提供每秒28000 teraops每瓦(顶部),最高效率为9.3,能够结合多达32芯片一个黑板上沉重的计算负担或离散任务处理和一个总成本低10倍根据GTI比竞争硬件。在CES上GTI相比其Laceli人工智能计算,一个USB 3.0可用于基于图像的深度学习自然语言,图像,视频和其他人工智能应用程序,与英特尔的性能Movidius u盘与性能的0.1顶部1 w。英特尔称性能高达4的上衣无数X版本Movidius VPU芯片实例化的神经计算引擎。

第二代芯片2803年Lightspeeur AI加速器设计为数据中心推论加速器,是安装在16的倍数一般芯片在单一GTI G.A.I.N. 2803板加速云应用程序性能高达16.8上衣在700 mW 2毫秒的延迟,纳德尔说。

大约28000节点内部的芯片设计能够处理168 x 168的一个矩阵中使用大约10 mb的内存芯片不使用外部存储器或离散区域房子数据处理之前,纳德尔说。

2803芯片是9毫米x 9毫米在28 nm制程使用作为PCIe接口连接,包括ResNet MobilNet ShiftNet和VGG神经网络模型尺寸从4.4 MB 17.6 MB /芯片进行训练和推理。

2803年是录音和可用样品到现在的合作伙伴。它可以在体积在2018年第四季度,纳德尔说。

芯片都是由台积电,可以在单一的单位或团体和包装设计作为附件现有设备使用GTI-produced开发工具与尽可能少的困难,使ML-enablement访问开发人员不需要深度专业化毫升架构或处理,纳德尔说。

公司预计第一端点和边缘产品由2801芯片的今年年底。



留下一个回复


(注意:这个名字会显示公开)

Baidu