中文 英语
首页
技术论文

SparseP:在真实内存处理系统上实现高效的稀疏矩阵向量乘法

在真实的PIM体系结构上对SpMV进行了全面的分析,并给出了第一个用于真实PIM体系结构的SpMV库SparseP。

受欢迎程度

摘要
“一些制造商已经开始将近银行内存处理(PIM)架构商业化。近库PIM架构将简单的核心放置在DRAM库附近,通过减轻数据访问成本,可以在并行应用程序中产生显著的性能和能源改进。真正的PIM系统可以提供高水平的并行性、大的聚合内存带宽和低的内存访问延迟,因此非常适合加速广泛使用的内存约束的稀疏矩阵向量乘法(SpMV)内核。

本文首次在真实的PIM体系结构上全面分析了SpMV,并给出了第一个用于真实PIM体系结构的SpMV库SparseP。我们作出了三个主要贡献。首先,我们在SpMV上为多线程PIM核心实现了各种各样的软件策略,并描述了单个多线程PIM核心的计算极限。其次,我们设计了跨多个PIM核心的各种负载平衡方案,以及两种类型的数据分区技术,以在数千个PIM核心上执行SpMV: (1) 1d分区内核,仅使用PIM核心执行完整的SpMV计算;(2)2d分区内核,努力在计算和数据传输到PIM支持的内存成本之间取得平衡。第三,我们将具有2528个PIM核心的真实PIM系统上的SpMV执行与最先进的CPU和GPU系统进行比较,以研究各种设备的性能和能源效率。SparseP软件包为真实的PIM系统提供了25个SpMV内核,支持四种最广泛使用的压缩矩阵格式和广泛的数据类型。我们广泛的评估为软件设计人员和硬件架构师提供了新的见解和建议,以有效地加速真实PIM系统上的SpMV。”

找到技术文件链接.1月/ 2月出版。2022.

Christina Giannoula, Ivan Fernandez, Juan Gómez-Luna, Nectarios Koziris, Georgios Goumas, Onur Mutlu。

参观半导体工程技术论文库并发现更多芯片行业的学术论文。



留下回复


(注:此名称将公开显示)

Baidu