家

技术论文

通过自动高效Multi-GPU共享内存优化细粒度的转移

系统启用远程内存传输的可编程性和管道优势点对点商店,同时实现互连,对手散装DMA传输效率。

2021年7月2日:技术论文链接

密歇根Harini Muthukrishnan (U);大卫Nellans——丹尼尔·拉斯帝格(英伟达);杰弗里·a·菲斯勒,托马斯Wenisch密歇根(U)。

抽象——“尽管继续inter-GPU通信机制的研究,从multiGPU系统提取性能仍然是一个重大挑战。Inter-GPU沟通通过批量DMA-based转移公开数据传输延迟GPU的至关重要的执行路径,因为这些大转移逻辑计算内核之间的交叉。相反,细粒度的点对点的内存访问内核执行期间导致内存摊位可以超过通过多线程gpu覆盖这些操作的能力。更糟的是,这些在当前inter-GPU互联sub-cacheline转移效率非常低下。解决这些问题,我们提出PROACT,系统启用远程内存传输的可编程性和管道优势点对点商店,同时实现互连,对手散装DMA传输效率。结合编译时仪器和精密跟踪的数据块准备在每个GPU, PROACT使interconnect-friendly数据传输而隐藏在内核通过管道传输延迟执行。本工作描述PROACT的硬件和软件实现和演示PROACT软件原型的有效性三代GPU硬件和互联。实现效率接近理想的互连,PROACT实现平均加速3.0×singleGPU 4-GPU系统性能,捕获83%的可用性能的机会。16-GPU NVIDIA DGX-2系统上,我们将演示一个11.0×single-GPU平均strong-scaling加速性能,5.3×比散装DMA-based方法。”

找到技术纸在这里。

技术论文发表于ACM和IEEE 2021年第48届国际研讨会上计算机体系结构。

通过自动高效Multi-GPU共享内存优化细粒度的转移

留下一个回复取消回复

技术论文

热门文章

RISC-V将成为主流

3月向Chiplets

创业融资:2022年11月

IC压力影响高级节点的可靠性

RISC-V分离向量处理单元为HPC (VPU)

知识中心
实体,人们和技术探索

相关文章

芯片设计转变为基本法则失去动力

下一代晶体管有什么不同呢

定制的芯片设计生态系统硅拨浪鼓

所有半导体投资要去哪里

基本的芯片架构的变化

RISC-V将成为主流

内存设计优化系统性能如何

为什么地理围墙将使L5

赞助商

最近的评论

关于

导航

与我们联系

通过自动高效Multi-GPU共享内存优化细粒度的转移

留下一个回复取消回复

技术论文

热门文章

RISC-V将成为主流

3月向Chiplets

创业融资:2022年11月

IC压力影响高级节点的可靠性

RISC-V分离向量处理单元为HPC (VPU)

知识中心实体,人们和技术探索

相关文章

芯片设计转变为基本法则失去动力

下一代晶体管有什么不同呢

定制的芯片设计生态系统硅拨浪鼓

所有半导体投资要去哪里

基本的芯片架构的变化

RISC-V将成为主流

内存设计优化系统性能如何

为什么地理围墙将使L5

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索