家

技术论文

快速:AI加速器超低精度训练和推理

INT4推理的批量大小1达到3 - 13.5(平均7)上衣/ W和FP8培训mini-batch 512达到持续102 - 588(平均203)TFLOPS大范围的应用程序。

2021年7月2日:技术论文链接

抽象——“日益增长的患病率和计算要求人工智能(AI)工作负载导致广泛使用硬件加速器的执行。扩展跨代AI加速器的性能是关键的成功的商业部署。人工智能工作负载的固有error-resilient性质呈现出独特的性能/能量通过精度改进扩展的机会。出于最近算法精度的发展比例推理和培训,我们设计了快速1,基于AI加速器芯片支持的光谱精度,即16 8位浮点和4和2比特定点。7海里EUV 36平方毫米快速芯片制造的技术提供了一个峰值3.5 TFLOPS / W HFP8模式和16.5上衣/ W INT4模式在额定电压。使用性能模型校准在1%的测量结果,我们评估推理款使用4比特定点表示基于1快速芯片系统和培训使用8位浮点表示款768 TFLOPs AI系统包括4 32-core快速芯片。我们的结果显示INT4推理的批量大小1达到3 - 13.5(平均7)上衣/ W和FP8培训mini-batch 512达到持续102 - 588(平均203)TFLOPS跨广泛的应用程序。”

找到这里的技术论文。

技术论文发表于ACM和IEEE 2021年第48届国际研讨会上计算机体系结构。

作者:

Swagath Venkataramani, Vijayalakshmi Srinivasan,魏王Sanchari Sen,国家主席胡锦涛,Ankur Agrawal, Monodeep凹地,Shubham Jain, Alberto Mannari黄平君Tran,玉龙,蓖麻Ogawa, Kazuaki Ishizaki, Hiroshi Inoue, Marcel Schaal, Mauricio Serrano Jungwook崔小阳光,Naigang Wang Chia-Yu Chen Allison艾蓝,詹姆斯•Bonano Nianzheng曹,罗伯特•Casatuta马修·科恩,布鲁斯·弗莱舍迈克尔•Guillorn Howard Haynie Jinwook荣格,Mingu Kang Kyu-hyoun金姆,思玉Koswatta, Saekyu李马丁·鲁茨西尔维亚Mueller Jinwook哦,阿施施Ranjan) Zhibin任,苏格兰人的骑手,Kerstin Schelm,迈克尔•本篇Joel Silberman杰杨殊荣Zalani,鑫张Ching周,马特•齐格勒Vinay Shah Moriyoshi Ohara,布莱恩·柯伦Pong-Fei Lu苏尼尔Shukla Leland Chang凯拉什葛(IBM公司)

快速:AI加速器超低精度训练和推理

留下一个回复取消回复

技术论文

热门文章

RISC-V将成为主流

创业融资:2022年11月

3月向Chiplets

IC压力影响高级节点的可靠性

RISC-V分离向量处理单元为HPC (VPU)

知识中心
实体,人们和技术探索

相关文章

芯片设计转变为基本法则失去动力

下一代晶体管有什么不同呢

定制的芯片设计生态系统硅拨浪鼓

所有半导体投资要去哪里

基本的芯片架构的变化

RISC-V将成为主流

内存设计优化系统性能如何

为什么地理围墙将使L5

赞助商

最近的评论

关于

导航

与我们联系

快速:AI加速器超低精度训练和推理

留下一个回复取消回复

技术论文

热门文章

RISC-V将成为主流

创业融资:2022年11月

3月向Chiplets

IC压力影响高级节点的可靠性

RISC-V分离向量处理单元为HPC (VPU)

知识中心实体,人们和技术探索

相关文章

芯片设计转变为基本法则失去动力

下一代晶体管有什么不同呢

定制的芯片设计生态系统硅拨浪鼓

所有半导体投资要去哪里

基本的芯片架构的变化

RISC-V将成为主流

内存设计优化系统性能如何

为什么地理围墙将使L5

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索