中文 英语

ResNet-50不能预测百万像素神经网络模型的推理吞吐量


客户正在考虑AI推理的应用程序,并希望评估多个推理加速器。正如我们上个月讨论的那样,TOPS与推理吞吐量无关,您应该使用真正的神经网络模型来对加速器进行基准测试。那么ResNet-50是评估推理加速器相对性能的一个很好的基准吗?如果你的应用程序是p…»阅读更多

边缘推理芯片中的内存子系统


Flex Logix首席执行官Geoff Tate谈到了推理芯片中内存子系统的关键问题,热量等因素如何影响性能,以及这类芯片将被用于何处。»阅读更多

人工智能推理记忆系统权衡


当公司描述他们的人工智能推断芯片时,他们通常会给出TOPS,但不会谈论他们的存储系统,这同样重要。TOPS是什么?它的意思是每秒运算万亿次。它主要是衡量可实现的最大吞吐量,而不是衡量实际吞吐量。大多数操作都是MAC(相乘/累加),所以TOPS = (MAC单位数)x…»阅读更多

大批量处理是否总能提高神经网络吞吐量?


常见的基准测试,如ResNet-50,在大批处理时的吞吐量通常比在批处理大小=1时高得多。例如,Nvidia Tesla T4在批处理=32时的吞吐量是批处理=1模式时的4倍。当然,更大的批处理大小有一个代价:延迟增加,这在实时应用程序中可能是不可取的。为什么更大的批量增加吞吐量…»阅读更多

推理加速:跟随记忆


关于推理加速的计算复杂性已经写了很多:对于全连接层,非常大的矩阵乘法和在百万像素图像上的大量3x3卷积,这两者都需要数千个mac(乘数-累加器)来实现ResNet-50和YOLOv3等模型的高吞吐量。硬币的另一面是管理d的运动。»阅读更多

Baidu