一个可编程near-memory加速器,将稀疏数据密集。设备导致显著减少数据移动和动态能量。
许多应用程序使用不规则和稀疏内存访问,不能利用现有缓存层次结构的高性能处理器。为了解决这个问题,数据布局(DLT)技术重新排列稀疏数据转变成一个密集的代表,提高位置和缓存的利用率。然而,之前的提议在这个空间无法提供一个设计,(i)与多核系统尺度,(2)隐藏重排延迟和(iii)提供了必要的接口,以缓解可编程性。
在这个工作我们现在的平面,一个可编程near-memory加速器,将稀疏数据密集。通过将平面设备在内存控制器级别我们使设计尺度与多核系统,隐藏操作延迟通过执行非阻塞精密数据重组,并简化编程支持虚拟内存和常规内存分配机制。我们的评估显示,平面导致显著减少数据移动和动态能量,提供平均4.58×加速。
来自:
ICS的21:ACM国际会议上超级计算机的程序
2021年6月,506页
国际标准图书编号:
9781450383356
DOI:
10.1145 / 3447818
贡献者
Adrian Barredo
巴萨的超级计算中心和大学为加泰罗尼亚
阿德里亚Armejach
巴萨的超级计算中心和大学为加泰罗尼亚
乔纳森胡子
手臂的研究
Miquel Moreto
巴萨的超级计算中心和大学为加泰罗尼亚
点击在这里阅读更多。
留下一个回复