HBM2E: E代表进化

新版本的高带宽内存标准承诺更大的速度和饲料,仅此而已。

2019年8月8日—:安迪Patrizio

三星推出第一个内存产品符合电平的HBM2E规范3月,但到目前为止没有来市场反映这记忆多么难制造体积。

三星的新HBM2E (Flashbolt品牌进行销售,对老Aquabolt和Flarebolt品牌),提供更好的性能33% HBM2由于翻倍密度16 gb /死亡。是什么改变了这些设备都是基于八16-Gbit内存死互联使用在矽通过(tsv) 8-Hi堆栈配置。这意味着单个包的410 GB / s内存带宽和16 GB的容量。双per-die销能力,DRAM转移速度每针可以达到3.2 Gbps。

使用成千上万的tsv需要一些有创意的电气工程,以避免信号损失。为了解决这一问题,为每个数据位使用多个tsv。三星tsv使用,而不是连接与wirebond DRAM芯片连接,DRAM芯片堆叠。每个芯片都有洞的下面连接到芯片。

HBM了,电线的长度是导致电感的问题。HBM2,三星内存频率增加到1.2 GHz和电压下降到1.2 v在同一时间。公司说,为了降低时钟歪斜不得不减少数据传输速度的偏差tsv,它增加了之间的热疙瘩DRAM模将加热更均匀地分散到每个KGSD。

三星并没有披露它如何实现这种增长33%的性能,但它可能是一个以上的进化过程,喜欢一切。

“当我们建造HBM2,我们想扩大市场广度设备可以攻击,但是也加入两个dimensions-capacity和更多的带宽,”乔Macri)说,公司副总裁兼首席技术官的计算和图形部门AMD。AMD是一个主要的HBM与三星的合作发展。“还是1024位宽,但翻倍频两gigachannels并添加纠错码(ECC)进入数据中心和人工智能和机器语言,因为整个数据中心市场”是建立在一个可信的数据模型。

HBM2E, AMD的合作开发者之一HBM,正同样的手段。“唯一位添加到界面增加可寻址能力,但这是相同的接口,它运行在一个更高的每秒3.2 gigatransfers接口,“Macri说。

1024位数据总线,HBM2E运行很宽,但不是非常快。两个字节的吞吐量是DDR3速度,产品管理高级主管弗兰克指出铁Rambus。“你通过宽,缓慢降低的力量和设计复杂性ASIC。宽,缓慢意味着你不必担心信号的完整性。他们堆栈DRAM在3 d配置中,所以它有一个非常小的足迹,”他说。

HBM堆四个DRAM模有两个128 -位通道每死,总共八个通道和总线宽度为1024位。

从2到2 e
从2 e HBM2不是革命性的。这几乎是一个速度和提要更新,但那是绰绰有余,三星说。

“关键的动机与HBM2E较高市场拓展能力,和HBM3更高的带宽和更多容量,“Tien什叶派说,高级经理在三星内存。“HBM2协同处理器的内存范围有限,主要是为人工智能和机器学习的应用。但即将到来的高容量系统架构师可以考虑在更大数量的HBM申请更强大的新一代人工智能,机器学习,Exaflop / Post Exaflop超级计算。”

副总裁休Durdan策略和产品eSilicon对此表示赞同。“这是比革命性的进化,”他说。“我看到扩展和增强现有的类型的设计。HBM2E HBM2的延伸。更快,但更重要的是,增加了地址位,让你建立一个内存集的四倍大,增加容量你可以把你的SoC旁边。”

三星是下一代数据中心运行定位HBM2E HPC, AI /毫升,图形的工作负载。通过使用四个HBM2E栈一个处理器,4096位内存接口,如GPU或FPGA,开发人员可以得到64 GB的内存峰值1.64 TB / s bandwidth-something尤其需要分析,人工智能,毫升。

虽然供应商可以堆栈HBM 12-hi, AMD的Macri相信所有供应商将保持8-hi栈。“有电容和电阻限制堆栈。有一个地方你打你为了保持高频率通过添加另一个堆栈。创建额外的设计领域。我们努力保持密度成本的平衡,”他说。

提高人工智能
现有的应用程序将受益于HBM2E仅仅因为更快的速度和饲料。“50%的容量增加允许您添加更多的工作集。所以你不能适应现在适合。当我们规模能力的内存扩展我们,”他说。

同时,HBM2E开门人工智能,特别是机器学习,因为它是大规模数据密集型和需要处理的tb的数据训练机。这就是HBM2E预计会发光。

“人工智能的一个挑战(从边缘到云)附近获得足够的内存计算以确保最高性能,”帕特里克·多尔西说,产品营销副总裁的可编程解决方案组英特尔。“作为人工智能网络模型在复杂性和性能需求继续增长,规模fpga固有的灵活性,在计算能力更高的带宽HBM路线图使fpga处理新算法,之前是不可能做到的。”

高性能计算和人工智能应用程序经常需要高性能的数据压缩和解压,和HBM-basedfpga可以更有效地压缩,加速较大的数据移动。Dorsey将FPGA与HBM使人工智能、数据分析、数据包检测,搜索加速度,8 k视频处理,高性能计算和安全性。

其他的用途
HBM主要GPU玩,但英特尔表示其Stratix 10 fpga使用HBM2,及其新宣布Agilex fpga将支持下一代HBM集成。

英特尔并不孤独。已经有大量的人工智能芯片在工作或在市场上各种各样的公司,包括微软、谷歌和许多创业公司,他们都是看着HBM,什叶派说。

“我们看到两个新兴的架构。一个是内存中处理,解决计算内存问题。另一个非常near-memory处理。几乎所有的人工智能芯片公司,我们遇到看着HBM或HBM。可能会有一些创业公司想做一些不一样的SRAM,但是每一个主要的人工智能芯片公司在生产或使用HBM探索设计,”他说。

什叶派指出,许多人工智能应用程序内存带宽限制,而不是计算约束。公司使用的车顶轮廓线模型来确定是这种情况。“目前的行业限制是高速存储器的速度和容量。HBM2E和HBM3将地址的内存带宽问题更快和更高的记忆能力,”他说。

另一个新地方HBM2E有望进军网络分组交换,需要网络通过eb的泵流量带宽互联网每天处理。

eSilicon Durdan预测,网络交换机芯片将看到线率不断增加,从当前28 gbps 56 gbps,他们最终会上升到112 gbps。HBM2E和HBM3需要跟上。“每次你双行率过程数据的两倍,所以你需要内存数据处理能力跟不上。(HBM2E)将使高容量芯片。得到更快的处理器,处理器和软件之间的联系将会更快。记忆最终作为一个方程的关键部分,”他说。

成本仍然是一个问题
使2.5 d包不是一个廉价的过程,HBM DRAM价格高是因为有限的可用性。都有有限的使用HBM高端网络和图形设备。

首席分析师吉姆•方便用客观的研究,估计DRAM晶片的成本为1600美元。HBM2成本增加了500美元,有30%的溢价。“DRAM制造商收取超过30%,”他说。“我预计(HBM)大多仍将在GPU空间,因为它是昂贵的。如果市场足够大,那么生产将变得更便宜和新的应用程序打开门。我不会感到惊讶,如果在10年的大多数应用程序使用HBM内存,但我也不会感到惊讶,如果他们没有。”

HBM不是广泛用于gpu。尽管广泛的产品线,Nvidia的四只使用HBM2 cards-Tesla P100,特斯拉V100,泰坦V,方形住宅区GV100。AMD Radeon 7和MI线使用它。

价格一直很高,因为没有一个公司广泛采用的工作在一个新的成本结构或增加供应。三星是HBM2E DRAM的唯一供应商。

海力士HBM2产品,但不是2 e,它并没有说什么时候会有一个产品在市场上。一微米的发言人指出,微米HBM2E发展,并参与行业推动者,了解他们的需求实现的技术。”

(微米已经放弃了竞争对手混合内存立方体建筑,从未像HBM实现电平标准状态。HMC域名http://www.hybridmemorycube.org/,已经过期了。)

在地平线上:HBM3
电平不是静止的。HBM3宣布了三星和海力士在2016年热芯片会议通常changes-increased内存容量,更大的带宽,降低电压,降低成本。带宽512 GB / s或更高。内存标准预计将于明年发布。

还有HBM3 +和HBM4,据说被释放在2022年至2024年之间,与更多的叠加和更高的容量。HBM3 +应该提供4 TB / s吞吐量和1024 GB的可寻址内存/套接字。

现在的情况是,细节HBM3稀疏。“还有几年的时间,标准还没有定义。人们考虑他们可能会喜欢,但太远了想想,“Durdan说。

什叶派说,在过去,HPC / AI HBM路线图的主要驱动力,因此速度和饲料是优先考虑的事情。但这将会改变。“更新的应用程序,然而,可能需要其他属性,比如扩展操作温度,我们会考虑在我们HBM2E HBM3设计,”他说。

相关文章
DRAM权衡:速度和能量
哪种类型的DRAM最适合不同的应用程序,以及为什么性能和功率可以改变这么多。
使用不同的内存来提高速度
获取数据的内存快添加一些意想不到的挑战。
在DRAM HBM2 vs GDDR6:权衡
的选择取决于应用程序不同,成本和容量和带宽的需求,但选项的数量是令人困惑。
GDDR6——HBM2权衡
什么类型的DRAM效果最好。
HBM2e为AI加速器提供坚实的道路(博客)
人工智能处理器性能快速增长,使内存架构的选择更重要。

安迪Patrizio

(所有的帖子)
安迪Patrizio特约编辑半导体工程。他覆盖技术已经超过25年,并写了一系列的出版物,包括信息周,网络世界,多布斯博士日报》和Ars Technica。他目前是建立在奥兰治县,加州。

2的评论

Jeddidieya 说:

2019年8月14日上午8点45分

“但频率两个gigachannels”增加了一倍

你的意思是两个gigatransfers和真的让我们提到DDR内存(双重数据速率)实际的时钟频率是传输速率的一半。

我们一定要提到的电平标准HBM2是目前大多数使用的是标准HBM2支持8,128位通道每堆栈和一个额外的64位伪通道模式,可以将每个128位通道划分为2,64位伪渠道和我真的像一些深入探讨了正是的工作负载可能受益于这64位伪HBM2通道模式。

我会假设HBM2E HBM2所有的特性集,只是一点速度/其他功能率E被钉。高容量是许多不同的工作负载,欢迎有更多的数据接近的需要在很大程度上节省了能耗。

AMD的gpu自斐济(Radeon R9机型愤怒X在28 nm)与AMD切换到利用HBM HBM2织女星10在14 nm维加7点20海里。但是的HBM2有点太贵了对消费者/博彩市场目前和我相信AMD希望他们和SK海力士的工作在创建HBM达成规模经济会更快些,取代GDDR5 / GDDR6早。但目前还没有发生,但将给定的时间和Exascale计算以及HPC市场应该有帮助。

什么不能帮助目前相对缺乏足够数量的HBM2的竞争者在市场上和HBM2价格的主要因素保持在较高的一边。

现在消费者博彩市场而言,如果一个堆栈HBM2E内存可以支持410 GB / s内存带宽的球公园2,HBM2堆栈提供了较低的时钟/低带宽提供早期HBM2标准那是好消息一堆HBM2E选择消费者/游戏GPU市场。

所以三星/电平/其他HBM生产商正试图使HBM2E GDDR6相比更负担得起的选择,GPU制造商可以得到足够的带宽来满足消费者/游戏GPU SKU,需要的带宽提供的只有一个HBM2E堆栈需要。

当前的Macbook Pro笔记本电脑利用为数不多的唯一AMD离散移动织女星GPU sku实际上提供HBM2和HBM2E似乎是现成的离散移动GPU市场(主流游戏GPU市场),只有一个HBM2 / HBM2E堆栈需要提供足够的带宽更强大Diecrete移动GPU变体。

一栈HBM2E取代2栈HBM2会在接近一半的成本,仍然能够提供足够的带宽在1024年(8,128位独立操作通道)连接,没有很多GDDR6配置与连接,甚至有512位最GDDR6配置256到384位的宽度范围内。

所以HBM2E无疑是一个选项来取代GDDR6以外的更多的GPU商业GPU HBM2 sku在更高的成本可以获得合理的性能。消费者GPU市场更成本意识但HBM2E似乎选择单个HBM2E堆栈被更具成本竞争力GDDG6 8死的安排,和HBM2E单一堆栈带宽接近带宽,大多数GDDR6(8死)提供基于GPU的配置。

SK海力士是带宽460 GB / s的HBM2E声明这是非常接近AMD的织女星64 483.8 GB / s的额定HBM2栈配置额定带宽。这一堆海力士HBM2E超过织女星56的409.6 GB / s带宽2降低时钟HBM2栈。一只需要足够的带宽支持GPU总数的着色器核心peek带宽使用情况指标大多数工作负载不要求这么一堆HBM2E应该是一个更有吸引力的解决方案的主流消费游戏/ GPU市场。

evolucion8 说:

2019年10月21日,14点

HBM2也用在织女星56岁的维加64及其卡是基于这些gpu (Vega10)

(所以不仅Radeon七世及其衍生品即Vega20 MI。

HBM2E: E代表进化

安迪Patrizio

2的评论

留下一个回复取消回复

知识中心的博客

2.5 d

在矽通过(tsv)

内存

高带宽内存(HBM)

DRAM:动态随机存取记忆体

技术论文

热门文章

RISC-V将成为主流

RISC-V芯片有多安全?

3月向Chiplets

RISC-V分离向量处理单元为HPC (VPU)

将铜互联规模多远?

知识中心
实体,人们和技术探索

相关文章

基本的芯片架构的变化

内存设计优化系统性能如何

创业融资:2022年10月

创业融资:2022年11月

IC压力影响高级节点的可靠性

3 d-ic可靠性降低和增加温度

芯片上的功率分布建模成为基本低于7海里

在复杂的芯片解决热耦合问题

赞助商

最近的评论

关于

导航

与我们联系

HBM2E: E代表进化

安迪Patrizio

2的评论

留下一个回复取消回复

知识中心的博客

2.5 d

在矽通过(tsv)

内存

高带宽内存(HBM)

DRAM:动态随机存取记忆体

技术论文

热门文章

RISC-V将成为主流

RISC-V芯片有多安全?

3月向Chiplets

RISC-V分离向量处理单元为HPC (VPU)

将铜互联规模多远?

知识中心实体,人们和技术探索

相关文章

基本的芯片架构的变化

内存设计优化系统性能如何

创业融资:2022年10月

创业融资:2022年11月

IC压力影响高级节点的可靠性

3 d-ic可靠性降低和增加温度

芯片上的功率分布建模成为基本低于7海里

在复杂的芯片解决热耦合问题

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索