形式:细粒度的极化ReRAM-based原位计算混合信号款加速器


文摘:“最近工作证明的承诺使用电阻随机存取内存(ReRAM)作为一项新兴技术本质上执行并行模拟域原位矩阵向量multiplication-the密集和关键计算深层神经网络(款)。一个关键问题是签署的权重值。然而,在ReRAM横梁、重量被存储为电导……»阅读更多

向量Runahead


文摘:“内存墙的地方一个重要限制许多现代的工作负载的性能。这些应用程序功能依赖的复杂链,间接的内存访问,甚至不能被最先进的microarchitectural预取器。结果是,当前无序的超标量处理器绝大多数时间都停滞不前。虽然有可能bui……»阅读更多

硬件架构和软件堆栈基于商业DRAM的PIM技术


文摘:“新兴应用,如深层神经网络芯片外高内存带宽的需求。然而,在严格的物理约束的系统和芯片包板,它变得非常昂贵的进一步增加片外存储器的带宽。此外,传输数据在内存层次结构构成的系统总能耗的大部分,以及……»阅读更多

IChannels:利用现有管理机制在现代处理器创建的秘密通道


在这里找到技术论文链接。文摘:“大范围进行有效的工作负载在不同功率需求,现代处理器适用不同的电流管理机制,这短暂的油门指令执行时调整电压和频率,以适应耗电指令(φ)指令流。1)减少了战俘……»阅读更多

灵活的高性能低功耗的RISC-V网络加速器包处理


在这里找到技术论文链接。抽象”卸载数据和控制任务的能力,网络正变得越来越重要,特别是如果我们考虑网络的更快的增长速度相比,CPU频率。网络计算减轻主机CPU负载运行任务直接在网络,使额外的计算/通信重叠和锅……»阅读更多

通过自动高效Multi-GPU共享内存优化细粒度的转移


密歇根Harini Muthukrishnan (U);大卫Nellans——丹尼尔·拉斯帝格(英伟达);杰弗里·a·菲斯勒,托马斯Wenisch密歇根(U)。抽象——“尽管继续inter-GPU通信机制的研究,从multiGPU系统提取性能仍然是一个重大挑战。Inter-GPU沟通通过批量DMA-based转移公开数据传输延迟GPU的关键…»阅读更多

莎拉:比例可重构数据流加速器


张雅琦,内森田赵,马特•Vilim穆罕默德沙赫巴兹Kunle Olukotun(斯坦福大学)摘要-“现代数据密集型工作负载的需要,一种加速的需要和崛起的“黑硅”在半导体行业正在推动更大、更快、更多的能量和areaefficient架构,如可重构数据流加速器(rda)。然而,挑战仍然存在在d…»阅读更多

TimeCache:使用时间消除缓存一边渠道共享软件


“Abstract-Timing渠道已经被用来提取密钥,甚至敏感文件从值得信赖的飞地。具体来说,缓存侧通道由共享代码的重用或数据在内存层次结构已经被几个已知的攻击,例如,驱逐+重载恢复一个RSA密钥泄漏大胆加载数据和幽灵变体。在本文中,我们……»阅读更多

为分布式深度学习交流Algorithm-Architecture合作设计


“Abstract-Large-scale分布深度学习培训使发展更复杂的深层神经网络模型的学习更大的数据集,复杂的任务。特别是分布式随机梯度下降法集中调用减少梯度更新操作,在迭代训练时期占据通信时间。在这项工作中,我们确定th……»阅读更多

的时候,可别忘了I / O分配你的最后一级缓存


来源/作者:一帆元(伊利诺斯);默罕默德·亚(堪萨斯);翼鹏王任王(英特尔实验室);髂骨Kurakin(英特尔);查理大(英特尔实验室);南金成(伊利诺斯)在这里找到技术论文。ACM和IEEE 2021年第48届国际研讨会上计算机体系结构(ISCA)。“抽象现代服务器cpu,最后一级缓存(LLC)是一个关键的硬件资源,发挥重要的……»阅读更多

Baidu