中文 英语

多少核?(第2部分)

第2部分:扇出和2.5D将改变核心的性能和使用方式;混合架构不断发展。

受欢迎程度

新的芯片架构和新的封装选项——包括扇出和2.5 d——正在改变基本的设计考虑,包括需要多少内核,它们的用途,以及如何解决一些越来越麻烦的瓶颈。

正如在第一部分在美国,仅仅增加更多的核心并不一定能提高性能,而且增加错误的大小或类型的核心会浪费电力。这为半导体行业的几次大转变奠定了基础。在平面上,收缩一切的前沿,焦点已经从架构转移到微架构和软件。在2.5 d在封装方面,高带宽内存和混合内存立方体的商业推出已经大大减少了性能瓶颈,但关于设计工具的成熟程度以及这些设计的成本将以多快的速度下降的问题仍然存在。

这两种转变都将对设计中使用的核心类型和数量产生重大影响,以及未来将面临的重大挑战。此外,它们使得系统架构师必须深入研究哪些内核在哪里工作最好,如何使用它们,它们将位于哪里,以及是否有可能提高价格/性能/面积的替代方案。这需要在设计的前端进行更多的工作,因为一些核心可以调整大小或替换为不同类型的核心,以满足不同的吞吐量数字,并且可能在后端进行更多的验证,因为这些新方法可能会引入意想不到的极端情况。

的联合创始人兼首席执行官Sundari Mitra表示:“我们看到了不同的流量模式NetSpeed系统.次优方法是调整所有内容以满足所有需求,或者同时调整所有内容以满足所有峰值需求。你需要进行延迟和带宽分析,并使其更加异构,这样你就可以添加‘如果’分析。”

这大致相当于用一个聚集的钟形曲线模型取代一个单一的钟形曲线,以获得一个设备将如何使用的更详细和准确的图像。它代表了各种核心和计算元素的物理属性、在它们上面运行并连接它们的软件、内存、它们的放置位置以及所有这些元素如何打包在一起的组合。

“多核系统的问题不在于硬件,它可以根据需要进行扩展,”Zibi Zalewski说Aldec微软的硬件部门。“问题在软件方面——如何在应用程序中有效地使用这种多维处理能力。这也是工程团队开始考虑使用fpga来加速算法而不是多核处理器的原因之一。fpga解决了速度问题,同时为软件开发人员提供了编译器和类似C的语言。最近英特尔(Intel)和Altera的合并只是证实了这一进程正在向前推进。一种传统处理器和FPGA为永无止境的速度竞赛提供了一种新的解决方案。”

FPGA供应商是最早采用2.5D封装的厂商之一,尽管不是出于性能原因。赛灵思公司而且阿尔特拉(现在是英特尔的一部分)采用了插入器在四核芯片中作为提高成品率的一种方式,因为较小的芯片的成品率优于单个大芯片。插入器简单地消除了将一个芯片分成四块的性能开销。

在ASIC世界中,先进的封装已经将重点放在更高的时钟速度上,因为动态功率、泄漏电流和热效应可以更容易地隔离在封装中而不是在芯片上。扇出和2.5D提供了比平面配置更快的互连速度,这对电阻和电容有直接影响。

英特尔ASIC营销总监Bill Isaacson表示:“你拥有的内核越多,就需要更多的内存访问。eSilicon.“这给ASIC和该ASIC的路由能力带来了很大的压力,特别是如何划分设计。”

成本方程式
FPGA供应商能够如此迅速地意识到成本效益的原因之一是FPGA就是系统。对于大多数SoC供应商,特别是无晶圆厂公司来说,业务结构是完全不同的。它在设计的每个层次上都奖励效率,这通常意味着单独的组件或块。这阻碍了FD-SOI多年来,它减缓了扇出和2.5D的采用,直到转向下一个流程节点变得非常痛苦,许多公司开始寻找替代方案。

在2.5D的例子中,真正的突破是HBM-2,现在两者都提供商业服务三星SK海力士。两家公司都表示,规模经济将遵循与其他内存相同的路径。由于性能/功耗的原因,2.5D已经在FPGA市场之外变得流行起来,首先是在网络设备和服务器中,因为插入器的性能优势,最近据报道,越来越多的设计正在广泛的市场中开发。

随着2.5D成为主流,许多早期对新包装方法的担忧开始成为焦点。一个是已知的好骰子。虽然这对3D-IC来说仍然是一个问题,但事实证明,对于2.5D和风扇输出来说,这远远不是一个问题。处理模具,甚至细化这些模具已经完善了过去几年的铸造厂和OSATs.更大的问题是在这些问题打包在一起之前识别和修复潜在问题的能力。eSilicon的艾萨克森表示,目前2.5D的测试方法已经到位,尽管除了网络和服务器芯片之外,业界还没有在这种封装上实现大规模生产,但人们已经认识到调试需要成为封装的一部分。

设计团队还需要了解如何处理这些架构中的物理效果。“最大的问题是热,”苹果应用工程高级总监阿尔温德•尚穆格维尔(Arvind Shanmugavel)表示有限元分析软件Apache业务部门。“挑战在于如何模拟真实的热行为,以及如何在2.5D中模拟界面的电学行为。你必须在一个包中建模和模拟整个系统。”

但需要模仿的对象也开始发生变化。随着功率、性能和成本都在不断变化,软件的集成也更加紧密,这种权衡正在发生重大变化。

一致性和其他内存方面的考虑
在过去,几乎所有关于多处理或多核的讨论都包含了一致性。内存必须更新以保持所有核心或处理元素同步。这不再是一个简单的讨论。随着设计变得越来越复杂,包括更多的核心和更多的内存类型,有三个选择:

•缺乏连贯性。内核可以不对称且独立地运行。
•连贯性有限。一些核心是连贯的,而另一些则不是。
•系统级一致性。一致性的讨论从CPU内存转移到使用各种计算元素的整个系统。这在高性能计算中尤其重要,因为高性能计算使用从cpu、gpu到fpga的一系列处理器。

目前尚不清楚的是,随着新的包装方法开始推出,这些世界之间的界限将在未来发生怎样的变化。

“如果你看看异构计算范式,软件人员要求所有地址都是一致的,”的CTO Drew Wingard说超音速.“所有东西都需要缓存一致。您可以迁移程序的部分,但它们仍然必须彼此缓存一致。同时,全局缓存一致性的能量消耗过高。可能需要多次取回数据。如果没有缓存,加速器就不能很好地工作。这就导致了内存瓶颈。”

HBM-2在这一图景中的作用尚不完全清楚。温加德说:“利用带宽仍然是一个挑战。”“HBM需要平均分配流量。这就是为什么人们会把多个记忆并行看待的原因。”

与此同时,这些封装方法为以不同方式使用内核和内存提供了新的选择。例如,使用高度拥塞的内存架构可以以2GHz的速度运行的内核,在使用microbumps连接到内存的包中可以以两倍的速度运行,并在单独的非对称内核上以很小的功率在后台运行加密/解密。

但这些变化并不局限于2.5D或风扇。无论封装如何,连接到通用内存架构的核心也可以为系统增加一些弹性。这代表了一种完全不同的方式,将连接在一起的核心作为系统的一部分使用,而不仅仅是为了冗余而进行故障转移。

英特尔营销副总裁库尔特•舒勒表示:“未来你将看到更多可用于软件的内核,但不是相同的内核。Arteris.“它们可以相互通信,但通常只需要控制系统的一部分。所以在人脑中,你有视觉、听觉和嗅觉。如果有嗅觉的部分发生了什么事,大脑的其他部分就会接管。他们做得不太好,但仍然有效。”

内存架构在这里也扮演着重要的角色。目前大多数方法使用片上SRAM和片外DRAM。但是不同的包装选项,加上不同的内存架构,可以改变公式。

公司解决方案营销副总裁Steven Woo说:“你当然可以重新平衡事情。Rambus.“你可以聚合内存并将其提供给处理器,这允许你在系统中使用更少的处理器。如果你看一下数据中心,cpu利用率为10%。这意味着你可以使用1/10的cpu数量和相同的内存容量。”

同样的公式也适用于SoC或2.5D封装。“核心数量的增长速度比存储器的自然增长率还要快。”“内核很难获得足够的内存,在某些情况下,内核正在被耗尽。我们在多核处理中看到了这一点,有时由于没有足够的内存容量,核心处于空闲状态。”

将其提升到一个抽象级别,所有这些部分都需要在系统级别上进行查看。Silexica Software Solutions开发多核编译器,该公司首席执行官Maximilian Odendahl表示,在这个层面上,最大的问题是通信。多核编译器现在需要决定把什么放在哪里。重要的是你想要传达什么,而不仅仅是传达什么。但是已经没有办法手动完成了。这太复杂了。”他补充说,无论是2.5D还是平面,通信问题都是一样的。

从宏观层面看这个问题更容易。但实际上,要使这项工作顺利进行,需要进行大量的改革。这些变化影响着方方面面,从芯片的架构和组装方式、组件的来源、使用的工艺、包装方式,甚至工程团队的必要技能和交互都有哪些。

Aldec的Zalewski说:“问题是所有这些元素都需要以非常高的速度相互合作。”“这包括在FPGA中加速操作的快速内存访问,以及与处理器甚至软件API交换数据的能力。内存和FPGA供应商都在研究解决方案。快速动态内存、内置FPGA内存块、为这种架构的协作而优化的集成控制器,甚至是具有处理器和可编程逻辑的集成芯片——这些都将成为非常关键的任务。处理器核心本身的速度已不再是主流课题。研发团队正在为新的计算架构开发高性能基础设施和fpga加速项目,以应对来自大数据处理服务器场、汽车驾驶辅助系统或互联网安全的市场挑战。”

那么需要多少内核呢?这个问题没有简单的答案,在接下来的几年里,随着选择和权衡的数量不断增加和发展,答案可能会变得越来越复杂。

有关的故事
异构多核头痛
hypervisor的更多用途
重新思考记忆



1评论

帕特里克明智 说:

42

留下回复


(注:此名称将公开显示)

Baidu