家

技术论文

为分布式深度学习交流Algorithm-Architecture合作设计

2021年6月14日:技术论文链接

“Abstract-Large-scale分布深度学习培训使发展更复杂的深层神经网络模型的学习更大的数据集,复杂的任务。特别是分布式随机梯度下降法集中调用减少梯度更新操作,在迭代训练时期占据通信时间。在这项工作中,我们在广泛使用的识别效率低下allreduce算法,和algorithm-architecture合作设计的机会。我们建议MULTITREE减少算法的拓扑和资源利用意识有效和可伸缩的减少操作,适用于不同互连拓扑。此外,我们共同设计的网络接口时间表和协调为contention-free减少消息通信、协同工作的算法。流控制也简化了利用大梯度的批量数据传输交换。我们使用不同大小的减少数据评估合作设计合成研究,证明其有效性在不同的互连网络拓扑结构,除了先进的深层神经网络实际工作负载实验。结果表明,MULTITREE达到2.3×1.56×沟通加速,以及训练时间减少到81%和30%相比,环减少和最先进的方法,分别。”

益黄(UCSB);Pritam Majumder(德克萨斯A&M) Sungkeun金(德克萨斯A&M),阿卜杜拉Muzahid(德克萨斯A&M),吻圆百胜(德克萨斯A&M),恩Jung Kim(德克萨斯A&M)

找到这里的技术论文。

ACM和IEEE 2021年第48届国际研讨会上计算机体系结构。

为分布式深度学习交流Algorithm-Architecture合作设计

留下一个回复取消回复

技术论文

热门文章

有多少传感器自主驾驶吗?

挑战成长为倒装芯片创建小疙瘩

Chiplet计划就立马高速运转起来

腐蚀过程推向更高的选择性,成本控制

创业融资:2023年5月

知识中心
实体,人们和技术探索

相关文章

Nanoimprint终于找到立足点

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

有多少传感器自主驾驶吗?

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

最近的评论

关于

导航

与我们联系

为分布式深度学习交流Algorithm-Architecture合作设计

留下一个回复取消回复

技术论文

热门文章

有多少传感器自主驾驶吗?

挑战成长为倒装芯片创建小疙瘩

Chiplet计划就立马高速运转起来

腐蚀过程推向更高的选择性,成本控制

创业融资:2023年5月

知识中心实体,人们和技术探索

相关文章

Nanoimprint终于找到立足点

真正的3 d更加困难,比2.5 d

Mini-Consortia Chiplets周围形成

RISC-V验证的必要工具吗?

有多少传感器自主驾驶吗?

不平衡电路老化成为一个更大的问题

技术预测:工厂过程观察到2040年

计量策略2 nm流程

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索