中文 英语
技术论文

快速:AI加速器超低精度训练和推理

INT4推理的批量大小1达到3 - 13.5(平均7)上衣/ W和FP8培训mini-batch 512达到持续102 - 588(平均203)TFLOPS大范围的应用程序。

受欢迎程度

抽象——“日益增长的患病率和计算要求人工智能(AI)工作负载导致广泛使用硬件加速器的执行。扩展跨代AI加速器的性能是关键的成功的商业部署。人工智能工作负载的固有error-resilient性质呈现出独特的性能/能量通过精度改进扩展的机会。出于最近算法精度的发展比例推理和培训,我们设计了快速1,基于AI加速器芯片支持的光谱精度,即16 8位浮点和4和2比特定点。7海里EUV 36平方毫米快速芯片制造的技术提供了一个峰值3.5 TFLOPS / W HFP8模式和16.5上衣/ W INT4模式在额定电压。使用性能模型校准在1%的测量结果,我们评估推理款使用4比特定点表示基于1快速芯片系统和培训使用8位浮点表示款768 TFLOPs AI系统包括4 32-core快速芯片。我们的结果显示INT4推理的批量大小1达到3 - 13.5(平均7)上衣/ W和FP8培训mini-batch 512达到持续102 - 588(平均203)TFLOPS跨广泛的应用程序。”

找到这里的技术论文

技术论文发表于ACM和IEEE 2021年第48届国际研讨会上计算机体系结构

作者:

Swagath Venkataramani, Vijayalakshmi Srinivasan,魏王Sanchari Sen,国家主席胡锦涛,Ankur Agrawal, Monodeep凹地,Shubham Jain, Alberto Mannari黄平君Tran,玉龙,蓖麻Ogawa, Kazuaki Ishizaki, Hiroshi Inoue, Marcel Schaal, Mauricio Serrano Jungwook崔小阳光,Naigang Wang Chia-Yu Chen Allison艾蓝,詹姆斯•Bonano Nianzheng曹,罗伯特•Casatuta马修·科恩,布鲁斯·弗莱舍迈克尔•Guillorn Howard Haynie Jinwook荣格,Mingu Kang Kyu-hyoun金姆,思玉Koswatta, Saekyu李马丁·鲁茨西尔维亚Mueller Jinwook哦,阿施施Ranjan) Zhibin任,苏格兰人的骑手,Kerstin Schelm,迈克尔•本篇Joel Silberman杰杨殊荣Zalani,鑫张Ching周,马特•齐格勒Vinay Shah Moriyoshi Ohara,布莱恩·柯伦Pong-Fei Lu苏尼尔Shukla Leland Chang凯拉什葛(IBM公司)


留下一个回复


(注意:这个名字会显示公开)

Baidu