中文 英语
首页
技术论文

HARP:在使用芯片纠错代码的内存芯片中实际有效地识别不可纠正的错误

混合Active-Reactive Profiling (HARP),一种新的错误分析算法,可快速实现对使用on-die ECC的内存芯片中的风险位的完全覆盖。

受欢迎程度

文摘:
“解决与缩放相关的主存错误的最先进技术可以从内存控制器内部识别和修复存在错误风险的位。不幸的是,现代主存芯片内部使用on-die错误校正码(on-die ECC),这混淆了内存控制器的错误视图,使识别风险位(即错误分析)的过程复杂化。为了理解on-die ECC导致错误分析的问题,我们分析了on-die ECC如何改变内存错误出现在内存芯片之外的方式(例如,到内存控制器)。我们表明,模上ECC引入了不同位位置误差之间的统计相关性,为实际有效的误差分析提出了三个关键挑战。

为了解决这三个挑战,我们引入了混合Active-Reactive Profiling (HARP),这是一种新的错误分析算法,可以快速实现对使用on-die ECC的内存芯片中的风险位的完全覆盖。HARP将错误分析分为两个阶段:(1)使用现有的分析技术,并对on-die ECC机制进行小的修改,以快速识别风险比特的子集;(2)在内存控制器中使用二次ECC,以安全地识别剩余的风险位,如果它们失败了。我们的评估表明,与两种最先进的基线错误分析算法相比,HARP更快地实现了对所有风险位的完全覆盖(例如,平均更快20.6%/36.4%/52.9%/62.1%,假设每个ECC字有2/3/4/5个原始比特错误),后者有时无法实现完全覆盖。我们对使用修复机制容忍DRAM数据保留错误时,每个分析器如何影响系统的总体误码率(BER)进行了案例研究。我们表明,HARP优于最佳基线算法(例如,对于0.75的原始每比特错误概率,HARP优于3.7倍)。”

找到技术文件链接

arXiv: 2109.12697 (cs。基于“增大化现实”技术)

MICRO ' 21: MICRO-54:第54届IEEE/ACM微架构国际研讨会



留下回复


(注:此名称将公开显示)

Baidu