技术论文

为分布式深度学习交流Algorithm-Architecture合作设计

为分布式深度学习交流Algorithm-Architecture合作设计

受欢迎程度

“Abstract-Large-scale分布深度学习培训使发展更复杂的深层神经网络模型的学习更大的数据集,复杂的任务。特别是分布式随机梯度下降法集中调用减少梯度更新操作,在迭代训练时期占据通信时间。在这项工作中,我们在广泛使用的识别效率低下allreduce算法,和algorithm-architecture合作设计的机会。我们建议MULTITREE减少算法的拓扑和资源利用意识有效和可伸缩的减少操作,适用于不同互连拓扑。此外,我们共同设计的网络接口时间表和协调为contention-free减少消息通信、协同工作的算法。流控制也简化了利用大梯度的批量数据传输交换。我们使用不同大小的减少数据评估合作设计合成研究,证明其有效性在不同的互连网络拓扑结构,除了先进的深层神经网络实际工作负载实验。结果表明,MULTITREE达到2.3×1.56×沟通加速,以及训练时间减少到81%和30%相比,环减少和最先进的方法,分别。”

益黄(UCSB);Pritam Majumder(德克萨斯A&M) Sungkeun金(德克萨斯A&M),阿卜杜拉Muzahid(德克萨斯A&M),吻圆百胜(德克萨斯A&M),恩Jung Kim(德克萨斯A&M)

找到这里的技术论文

ACM和IEEE 2021年第48届国际研讨会上计算机体系结构



留下一个回复


(注意:这个名字会显示公开)

Baidu