目标:记忆力下降50%

是否可以减少50%的电力消耗的内存?是的,但它需要在架构级别的内存和工作。

受欢迎程度

内存消耗约50%或更多的地区,约有50%的一个SoC的力量,这些百分比可能会增加。

问题是,静态随机存取存储器(SRAM)没有按照比例摩尔定律,不会改变。此外,很多设备不是追逐最新的节点和力量变得越来越关注,业界必须找到方法来做更多的与什么是可用的。

所以虽然可以减少50%的电力消耗的内存,不要指望你的记忆提供者提出所有的储蓄。随着改善记忆,态度也必须改变。

回到基础知识
储蓄力量开始的内部内存。”内存有几个建筑内容——bitcells,列和行解码器,允许您访问特定地点,和放大器,”董事总经理解释法扎德Zarrinfar的IP部门吗导师,西门子业务。“bitcells可以是不同的类型,如静态或动态内存,在动态内存也需要刷新电路。通常是外围的设计元素,不同记忆区分开来,可以在能耗上有很大影响。”

静态内存简单框图(来源:半导体工程)

图1所示。一个静态内存的简化框图。来源:半导体工程

电力消耗在哪里?“有静态泄漏,确保细胞所需的记得,”托尼•史坦斯费尔德解释说,首席技术官吗sureCore。“然后是有功功率,这基本上是成本执行读或写。泄漏电流是很小的,但是当你有数百万bitcells,少量次大可以给你一个明显的数字。”

Hiroyuki长岛,总经理Alchip美国,他。“设计师关心的动态功率和功率泄漏。一般来说,外围电路动态功率的贡献很大一部分,而一些数组是漏电功耗的主要贡献。”

读和写操作,它是不可能克服物理定律,国家权力与简历2。“有很多电线充电和放电,”斯坦斯菲尔德补充道。“记忆是大规模并行回路。你通常访问整个行,所以你正在推动整个rows-worth的位线和mux下降放大器。这意味着大量的相对较长的电线。然后数据得到的地方,所以有很多芯片上的数据将使用相对的问题。”

还原能力目标C V或术语。SRAM工作可靠的最低电压下降随着工艺技术的进展,但斜率被压扁。进一步减少V最小值把存储单元晶体管,这往往是最小的晶体管设计,到一个区域的操作不稳定。需要添加额外的电路,以确保正确的操作和维护性能。这些电路的改进必须弥补生产传播和固有的可变性在这些过程。“没有大量你可以做,”斯坦斯菲尔德承认。“你只需要接受工厂给你。”

其中一个问题是随机波动掺杂剂。迁移到finFETFD-SOI技术减少这一问题,因为它们都使用一个纯的通道,但直线边缘粗糙度和金属门粒度的问题依然存在。这些都成为主要问题低于20海里。

减少影响的一种方法是使用大的晶体管,不会显示出尽可能多的变化,因此在低电压更稳定的运作。“这是电压水平,大多数的记忆是在深度睡眠模式,”斯坦斯菲尔德说。“正确的设计,仍然可以访问内存电压。这是非常吸引开发人员还想要他们的逻辑运行在低voltage-designed解决电力系统问题不是一个简单的记忆力问题。这确实有性能损失,因为额外的电路应低电压工作,还有一个重要的区域再打,因为额外的电路需要低压操作工作。”

另一个策略是降低电容。“一个非常大的内存通常不构建为一个大的内存,”斯坦斯菲尔德说。”相反,它将两个或两个以上的小回忆,还有额外的多路复用技术通过数据。这意味着你只激活你需要。”

记忆本质上执行一个读访问权上的所有细胞行和扔掉所有的结果解决单词的记忆细胞除。写访问期间,其余单词相同的物理行词表现得好像读周期访问。权力可以通过使用短bitlines得救和其他vertical-routed信号通常控制动态功耗温和——大型内存块。

可以使用各种多路复用技术技术减少线的长度。随着多路复用技术深度的增加,内存减少的行数,列数增加。虽然内存宽度将增加额外的延迟强加于如wordline horizontally-routed信号,这个点球超过补偿收益vertically-routed速度信号。

很大一部分的读访问时间记忆是由于需要开发一个可测量的信号的时间从记忆细胞到bitlines驱动。信号bitline电容开发时间成正比。“你的方式设计感应的层次结构是很重要的,”Zarrinfar说。“我们的目标是要大约大小成正比。设计师也会看不同的纵横比。”

的进步在内存中设计与读写电路相关联。实现了“读帮助和写协助技术解决的问题引起的低VDD说:“手术Alchip长岛。“例如,负bitLine写帮助是一种常见的技术来提高写保证金健壮的写操作。

其他技术来减少电容存在。“我们可以划分设计或保持线跟踪短一点或者间距为进一步控制电容?”斯坦斯菲尔德问。“我们可以操纵电路,这样不活跃?这样的设计将有类似的性能和更好的权力有轻微惩罚。”

修改建筑
而内存的变化设计可以产生重要的功率降低,这是不足以达到节省50%的电力。“大多数潜在的权力储蓄,或者效率低下,锁在的架构决策,“断言Dave Pursley产品管理总监节奏。“我们的行业估计建筑的变化4 x更多潜在的改善或恶化,力量比低水平的变化。”

首先看大件商品。“不要移动数据如果你不需要,”马克·格林伯格说,集团董事,产品营销在节奏的IP组。“这似乎很明显,但它涵盖了一系列硬件和软件技术,会导致功率降低。考虑算术运算的精度是否适合于手头的任务。考虑是否需要存储中间值或他们是否可以再生。”

这是最大性能的交谈是必需的。“如果CPU分支预测或投机获取的数据,然后通过自然这些技术将一些不必要的数据如果预测/投机是不正确的,“格林伯格补充道。“这是提高性能的价格。”

如果有的时候内存不会被使用,它通常可以放在一个睡眠模式。“深度睡眠模式意味着您可以保留数据,但是您可以关闭外围电路,“Zarrinfar说。“现在唯一的功耗是bitcells泄漏。而依赖于许多因素,包括内存的大小,关掉外围滴泄漏60%或70%。”

功率控制添加一些设计的复杂性。“你要小心,你不关掉电源bitcells,当你打开或关闭电源时,你必须确保没有创建故障,”斯坦斯菲尔德警告说。“这看起来像一个的习惯写周期,从而可能腐败的数据。”

另一种方法是操纵源偏置电压。说:“这可以显著降低泄漏Zarrinfar。“这仍然是一个功能齐全的SRAM,但银行不使用留在光睡觉。”

轻度睡眠不会保存尽可能多的权力,但它可以更快地开启和关闭。深度睡眠可以节省更多的权力,但所需的时间将更长。

知道什么时候可以开启和关闭内存需要系统级的知识。“你可能是大量的数据,但你很少访问它,因此泄漏最重要,”斯坦斯菲尔德说。”或者你可能会有一个小的内存访问频繁,在这种情况下有功功率的问题。”

存储和通信架构决定早期,其他都是围绕这些决定的。“考虑一个应用程序,每个周期需要两个数据,“Pursley说。“即使只是简单的问题,很多建筑的选择。应该有两个独立的记忆也许还不止一个?如果一个内存,它是更高效的双端口内存,或者做的内存访问模式允许一个更广泛的记忆每个单词(包含多个值)?也许最好的权衡是使用广泛内存运行速度的两倍。”

格林伯格指向另一个大浪费电力。“不要超过你必须移动数据。这主要是关于适当的缓存数据,而不是如果你不必冲洗它。理想情况下,我们将存储所有的数据非常接近CPU在本地存储或L1缓存。但这些缓存必然是小的和昂贵的,所以我们使用层次结构的内存。Cache-to-cache转移更有效的如果他们不经过主存储器(动态随机存取记忆体)。作为一个经验法则,与本地存储的数据相比,我认为10倍的能量储存在L3缓存和100倍的能量在DDR DRAM存储它。新的内存接口技术HBM2和LPDDR5有助于减少所需的能量如果数据应该需要外部DRAM芯片外进入通过减少I / O电容电压和减少I / O。”

当架构师和记忆设计师一起工作,其他的优化成为可能。”向量计算,你知道读取一个数据后你有一个好主意关于接下来,”斯坦斯菲尔德说。“当你有可预测的访问模式,您可以利用存储系统的设计。如果你现在正在与这一块的数据,你可能知道你将做很多访问这一块,而不是其他的块。然后你可以使用这样的信息。当产品架构师一起内存架构师,我们可以看到的权衡,可以使双方在一起。”

斯坦斯菲尔德证实,他们已经成功地减少了50%的记忆力,设计符合应用程序的内存。“这不是的,我们作为一个内存公司,可以单独优化。有信息我们不知道的访问模式。我们可以做一个最好的猜测和产生一个内存优化的设计一个特定的访问模式,但不幸的是,每个人都会有一个稍微不同的访问模式。”

最后,它可以归结为一个权衡。重要的权力可以得救,但成本可能是一小块面积,增加了设计时间。值得吗?这是一个架构决策,也没有简单的答案。

相关文章
记忆权衡加强人工智能、汽车应用
为什么选择记忆和架构设计成系统变得更加困难。
定义边缘内存需求
边缘计算覆盖范围广泛的应用程序。理解带宽和容量需求是至关重要的。
用更少的力量在同一节点
当将一个较小的节点不再是一种选择,你会获得更好的动力性能如何?几个技术是可行的。



3评论

尼尔。 说:

t静态随机存取存储器(SRAM)没有按照摩尔定律,- - - - - -为什么?

c·霍德森 说:

我不能够评估是否自旋轨道转矩(说)MRAM已经准备就绪在当前节点(10/7nm),但是听起来很有说服力的…

布莱恩•贝利 说:

英特尔已经记录了什么他们已经能够达到的比例在过去的几代人。SRAM,他们绘制的理想比例与实际比例从90纳米到10纳米。理想就会给他们一个81 x密度的改善但是他们只获得一个32 x。原因是保利规则,增加电容的影响,较小的噪声边缘,增加变化也导致增加对周围电路的要求。

留下一个回复


(注意:这个名字会显示公开)

Baidu