中文 英语
知识中心
导航
知识中心

张量处理单元(TPU)

谷歌为机器学习设计的ASIC处理单元,与TensorFlow生态系统协同工作。
受欢迎程度

描述

张量处理单元(TPU)——有时也称为TensorFlow处理单元——是机器学习的专用加速器。它是谷歌公司设计的处理芯片,利用TensorFlow进行神经网络处理。tpu是asic(特定于应用程序的集成电路),用于在网络上使用处理元素(具有本地内存的小型dsp)加速特定的机器学习工作负载,因此这些元素可以相互通信并传递数据。

TensorFlow是一个开源平台机器学习用于图像分类、目标检测、语言建模、语音识别等。

tpu具有优化模型库,使用片上模型高带宽存储器(HBM),并且在每个核中都有标量、矢量和矩阵单位(mxu)。mxu在每个周期中以16K的乘法-累加操作进行处理。32位浮点输入和输出通过Bfloat16简化。核心分别执行用户计算(XLA ops)。谷歌提供对其服务器上的Cloud tpu的访问。

谷歌说tpu是有用的:

  • 以矩阵计算为主的模型
  • 在主训练循环中没有自定义TensorFlow操作的模型
  • 训练数周或数月的模特
  • 更大和非常大的模型,具有非常大的有效批量大小

否则,cpu而且gpu更适合快速原型、简单模型、中小型批量、无法更改的预先存在的代码、一些数学问题等等。*详情见云张量处理单元(tpu)。

2013年,谷歌很明显地意识到,除非他们能设计出一种能够处理机器学习推理的芯片,否则他们必须将数据中心的数量增加一倍。结果TPU,谷歌它的“性能比当代cpu和gpu高出15 - 30倍,每瓦性能高出30 - 80倍。”

“推动这一现象的根本趋势是专门化与通用化。在ML应用程序中使用Nvidia的GPU效率约为84%。你浪费了这部分的84%。如果你在谷歌上部署了数以百万计的图形处理器,你就有很大的动力去制造一个TPU,而不是从Nvidia购买GPU。这是普遍的事实。”杰克·哈丁说, eSilicon。

TensorFlow处理单元架构。来源:谷歌

最新的谷歌TPU包含65,536个8位MAC块,消耗如此多的功率,以至于芯片必须水冷。TPU的功耗可能在200W ~ 300W之间。

的版本TPU包括单机和吊舱配置:

  • 云TPU v2
    • 180次浮点运算
    • 64gb HBM
  • 云TPU v3
    • 420次浮点运算
    • 128gb HBM
  • 云TPU v2 Pod(测试版)
    • 每秒11.5次
    • 4tb HBM
    • 二维环形网状网络
  • Cloud TPU v3 Pod(测试版)
    • 每秒100 +
    • 32 TB HBM
    • 二维环形网状网络
  • 边缘TPU推理加速器

pod是连接在一起的多个设备。看到谷歌的TPU页面获取更多信息。

谷歌TPU模块,2019

云TPU v3(上图为斯坦福大学2019年热芯片展)运行速度为420万亿次浮点运算,使用128 GB HBM。(图片来源:Semiengin新利体育下载注册eering.com/Susan兰博)

谷歌源页面:

相关的
寻找更多关于处理器的信息?找到他们在这里。
知识中心主页

Baidu