18.luck新利

使用不同的内存来提高速度

获取数据的内存快添加一些意想不到的挑战。

2019年7月22日:埃德·斯珀林

提高内存性能处理大量数据上升推动芯片制造商探索新的内存类型和不同的方式利用现有的记忆,但它也创造一些复杂的新的挑战。

对于大多数半导体设计行业的,内存过去几十年一直是一个问题。主要关注的是价格和大小,但内存制造商超过能够跟上处理要求。这是开始改变有几个原因:

数据生成的总体数量飞涨,很大程度上是由于更多的连接设备和传感器。因为有太多数据船到云,它必须被处理的边缘,甚至在终点,权力是一个关键因素。
有一个传统的记忆/存储层次结构中的瓶颈。磁盘驱动器是廉价的,但它们在数据传输速率慢。固态硬盘(ssd)稍快,但是仍有一些延迟问题。
内存扩展正在经历同样的问题逻辑扩展,在增加密度是更难移动数据的设备更迅速。这就是为什么HBM2 DRAM在高性能设备越来越受欢迎,为什么有这么多钱涌入MRAM的发展,ReRAM, FeRAM,相变内存。
人工智能和机器学习系统是驱动新架构依赖大量的数据吞吐量达到数量级的提高性能。这些架构包括内存和near-memory计算,但他们也越来越多地关注阅读和写作更大的字符串数据。

应对这些变化,芯片制造商和数据科学家开始重新思考的基础冯诺依曼体系结构,这是提高一系列新问题对大多数设计团队。

舍入误差
提高性能的一个方法是优先用/积累操作,而不是随机分布数据存储设备。

“当你循环记忆,你基本上是打开一个抽屉,挑出一件事,”史蒂文说哇,研究员、著名的发明家Rambus。“但它需要大量的能量来打开一个抽屉,挑出有用的东西,然后关闭抽屉里。就像打开一个银行保险库,检索一个项目,和关闭它。打开金库的开销很高。你真的想去检索多个项目,这样你摊销成本库的开启和关闭。AI系统的能源效率是非常重要的,所以你要安排你的模型和训练数据的方式可以获取大量数据每次你需要去记忆——实际上,掩盖了高能需要打开和关闭金库的门。”

另一种方式来处理这个问题是利用更少的比特。“比16位浮点数8位花车需要的存储空间更少,所以他们耗费更少的能量从内存中读取,”吴表示。不利的一面是,他们也不精确。与现代神经网络执行数十亿multiply-accumulate (MAC)操作,或者更多,缺乏精度和舍入方式会影响你的结果。”

所有这些必须考虑人工智能和机器学习系统。事实上,有全身的计算机科学研究如何保护精度整数。

“想象你只有一个分级精度,”吴表示。“所以你只能代表整个数字或数字的一半。例如,您可以只代表1.0,1.5,2.0,2.5,等等。如果你说你需要一个值为0.2,计算你不能编码值,因为你缺乏数值精度。舍入数到0可能意味着不会发生任何改变。和围捕0.5可能意味着你过度如何调整你的网络。有一些有趣的工作结合mixed-precision数字提高精确度,以及替代舍入方法如随机舍入。具有随机舍入,有时你围捕,有时你一轮下来,平均你实现你正在寻找。在第一个示例中,所需的值为0.2,60%的时间你会轮0和40%的时间你会算到0.5。平均而言,价值将0.2。”

不同的方法也可以组合,给研究人员设计算法的多种选择,权衡能源效率和准确性。

人工智能的影响
人工智能添加了一些独特的变化到所有这一切。

“人工智能的另一个问题是使用的内存,这是非常独特的,稀疏的概念,”卡洛斯Macian说,高级人工智能策略和产品主管eSilicon。“在其他领域,如网络、有效使用内存,在阅读和写作,通过严格的包装数据,在每一点有一些信息。关键是稠密的。在人工智能中,另一方面,这是艺术的近似计算,训练的过程包括识别的每一个分支网络模型的相对重要性所谓的重量。”

这是特别有趣,因为这些数据的准确性直接影响记忆的功能。

“许多的最终权重为零,或非常接近它,成为最终结果无关紧要,”Macian说。“结果,大部分的网络模型可以忽略和遵循一个非常稀疏图,有很多零被存储在内存中。虽然有方法压实稀疏图,这也是非常有用的能够识别如果所有重量储存在一个给定的内存位置为零。通过这样做,您可以避免执行任何操作涉及这些权重,因此节省大量的权力。eSilicon WAZPS记忆功能就是这么做的”。

模拟内存
另一个新方法包括如何捕获和存储数据。因为收集的数据是模拟,它本质上是低效的数字化数据,从时间和精力的角度来看。使用人类的大脑作为模型,神经形态计算旨在提高能力和性能计算的效率。

IBM研究人员去年在这方面开始调查进展,看着利用ReRAM的可能性,相变内存,以及光子学降低移动数据所需的能量。他们得出的结论是,混合信号芯片memcomputing将是一个很大的进步。

其他人也有类似的观点。”ReRAM最好的存储特性的模拟值,”吉迪恩Intrater说,首席技术官吗Adesto。“今天的存储设备是用来存储0和1。你要做的是能够存储模拟值的比特数的accuracy-maybe 6到12位精度。这是在实验室完成,但不接近,将其扩展到我们需要的大尺寸的矩阵运算,或将它水平可产品化以可重复的方式。”

这是一个不平凡的努力,因为它实际上意味着增加一个抽象级别到记忆的工作方式。

“这种内存并移动它模拟设备是一个事业,”Intrater说。“希望这个行业在几年将看到产品,我们可以在一个模拟的方式存储数据。与模拟世界,你必须处理所有问题的数字世界+模拟世界。所以密度是一个大问题。你需要几十或几百个mb存储在芯片,甚至更多。此外,你需要有能力存储设备的模拟值和实际检索模拟值在一个坚实的时尚。”

静态存储器和动态随机存取记忆体
有很多谈论多年来取代动态随机存取记忆体和静态存储器与一个普遍的记忆存储器的速度和价格,DRAM的性能和耐力。在短期内不太可能发生。都在可预见的未来仍将是主要的芯片设计。

这并不意味着旧的内存技术是静止的,然而。新口味的DRAM已经在use-GDDR6和HBM2——更多的路上。除了所有这些,管道移动数据的内存加快。

“我们看到更改接口达利克,MRAM, flash,”格雷厄姆·艾伦说DDR phy高级营销经理Synopsys对此。“这是更高效的有效疏导接口。这是原因之一LPDDR4 LPDDR4x LPDDR5,例如,所有去16位的频道。它同样适用于内部架构DRAM所以没有泡沫的数据流,当你从阅读写作。和DDR5双40位去了。如果你有一个芯片有八个32位LPDDR4x接口,有效地16频道。每个通道都可以做自己的事,一些阅读、写作。这是非常有效的在如何传输数据,因为你没有使用整个界面在任何时候任何一个特定的目的。”

添加渠道是提高性能的一个相当简单的方式对现有内存类型。

“LPDDR5本身是一个双通道设备,但它是很常见的有超过两个渠道,”马克·格林伯格说,集团产品营销主管节奏。“问题就变成了如何地图交通从一个特定的频道的核心设备。与片上网络的人这样做,但这是一个很大的建筑建模问题。内核做什么你想要访问渠道,你要每一个核心来访问每一个频道,和的含义是什么?如果你有数据的渠道核心不能访问,和你如何传输数据?这些都是大建筑问题人们会花大量的时间看。这是一个可以解决的问题,每个人都必须解决它,因为你不能使一个芯片,直到你决定要的数据。但仍然有很多空间与人找出最好的办法。”

传统上一直在内存中随机分布的数据,但是也有可能减少写入读取时间统计分发数据。也可能是使用加密压缩数据的方法,仍在开发的早期阶段。

“有创业公司想加密数据,其中一个好处是,当你加密它你可能只需要传输96位的数据,而不是128位,“说Synopsys对此“艾伦。“你实际上有更高的带宽。但你有一个延迟开销。越安全,越早你想加密的数据。你想要尽可能远沿着通道,这是加密和解密的延迟惩罚。”

这仍然是比当前的加密和解密的方法,它可以提高整个系统的效率和性能。

最后,匹配组件可以优化性能和提高效率。

“你想优化处理能力和内存带宽,”弗兰克说,铁产品管理高级主管Rambus。“一些大的系统供应商的优化在人工智能和通用的流程看起来不那么好,但是他们的特定应用程序调优曲线以最大化吞吐量的GPU和内存带宽。这就是他们调优。您想要优化您的应用程序是什么。”

密度问题
随着所有这些方法,记忆在不同利率继续萎缩。DRAM厂商有自己的日程安排增加密度,但SRAM芯片在缩小与过程。开始产生问题,因为SRAM不收缩以及其他数字电路。结果是,空间被SRAM的数量,通常用于缓存正在增长。

“过去,40%的芯片是记忆,”法扎德Zarrinfar说,IP业务的董事总经理导师,西门子业务。“现在是60%到70%的芯片,并在人工智能芯片可以70%到80%。面积在SRAM扮演一个主要角色扩展,这就是为什么我们继续增加密度。”

不过,这是不同的原因变得越来越困难。泄漏是增长记忆细胞收缩和电压降低。“记忆碎片不断处理方法来减少泄漏,降低保留电压、“Zarrinfar说。“功能电压降低,然后我们必须处理它使用高压(高电压阈值细胞)减少泄漏,UHVT进一步降低泄漏,和LVT(低电压阈值)最大化速度。”

同时,也有问题和性能随着密度的增加,所以有write-assist read-assist优化密度。

结论
存储和访问不同的数据已经被研究了许多年。不过,直到过去的几个节点设备扩展生成足够的性能改进和力量,所以在这方面毫无进展。但随着比例继续下降的好处,架构变化正变得越来越重要PPA改进。这是特别重要的处理和存储的数据量持续爆发,这增加了一种紧迫感记忆的研究和开发。

也正在推动研究新的内存类型和包装,以及更好的方法来优化和访问数据。虽然记忆一直是计算不可分割的一部分,它得到了第二次看,芯片制造商看得到大提高了性能更少的力量,他们与扩展预期使用。

埃德·斯珀林

(所有的帖子)
埃德·斯珀林的主编是半导体工程。

2的评论

凯文·卡梅隆说:

2019年7月31日下午11:44点

在一天结束的时候内存计算是唯一的选择——一个卷的数据只有一个表面进行通信,所以试图移动数据的存储让你运气不好一个维度。除此之外,如果你看着模拟/混合信号的方法,要解决仿真工具,我已经等了二十年的人感兴趣。

吉尔·罗素说:

2019年8月3日在1:36时

艾德,
闪存峰会2019下周周二开始。据说会有“计算内存”的信息,执行整体运行Hyperdimensional计算等项之前只有“研究”的范畴。很高兴见到你。

使用不同的内存来提高速度

埃德·斯珀林

2的评论

留下一个回复取消回复

知识中心的博客

模拟电路

体系结构

内存

高带宽内存(HBM)

DRAM:动态随机存取记忆体

技术论文

热门文章

RISC-V将成为主流

3月向Chiplets

创业融资:2022年11月

IC压力影响高级节点的可靠性

RISC-V分离向量处理单元为HPC (VPU)

知识中心
实体,人们和技术探索

相关文章

基本的芯片架构的变化

内存设计优化系统性能如何

创业融资:2022年10月

创业融资:2022年11月

IC压力影响高级节点的可靠性

机器学习反思

设计热

芯片上的功率分布建模成为基本低于7海里

赞助商

最近的评论

关于

导航

与我们联系

使用不同的内存来提高速度

埃德·斯珀林

2的评论

留下一个回复取消回复

知识中心的博客

模拟电路

体系结构

内存

高带宽内存(HBM)

DRAM:动态随机存取记忆体

技术论文

热门文章

RISC-V将成为主流

3月向Chiplets

创业融资:2022年11月

IC压力影响高级节点的可靠性

RISC-V分离向量处理单元为HPC (VPU)

知识中心实体,人们和技术探索

相关文章

基本的芯片架构的变化

内存设计优化系统性能如何

创业融资:2022年10月

创业融资:2022年11月

IC压力影响高级节点的可靠性

机器学习反思

设计热

芯片上的功率分布建模成为基本低于7海里

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
实体,人们和技术探索