新架构，加速芯片的方法

在10nm和7nm工艺中，性能指标正在发生变化。速度仍然很重要，但一种方法并不能适用于所有情况。

2016年8月15日- By:埃德·斯珀林

对速度的需求又回来了。需要收集和处理的数据量的爆炸式增长，正在推动硬件、软件和整体系统设计的新变革浪潮。

在多年强调降低功耗之后，性能重新成为智能汽车、可穿戴设备和云数据中心等各种应用的首要问题。但实现这一目标的方式已经发生了重大变化。在过去，增加密度是提供功率和性能改进的首选方法。实际上，最便宜的解决方案就是用更多的晶体管和内存来解决问题。现在情况已经不同了。

对于许多芯片制造商来说，即使是10纳米和7纳米也可能是一种延伸。在那之后，半导体路线图就变得模糊了，部分原因是物理学，部分原因是人们怀疑是否有足够多的公司能够负担得起开发它。因此，芯片制造商正在研究新的硬件和软件架构、机器学习以及设备内外更好的数据吞吐量。他们是在逐个市场的基础上这样做的，因为在有限的电力预算下，一种尺寸不再适合所有应用。

“关键在于如何优化带宽和延迟，”AMD首席技术官马克·帕珀马斯特(Mark Papermaster)说。“给这些发动机供能的管道有多大?”你能以多快的速度将数据移进和移出这些引擎?你必须设计一个平衡的机器。这也延伸到了芯片之外，包括你如何与世界其他地方连接。内存和I/O也是一样的。你必须有足够的管道或带宽来优化延迟，以确保不会产生瓶颈。”

这些同样的原则适用于速度超快的电脑或可穿戴设备。但这也给半导体公司带来了困境。如果他们为特定市场开发定制解决方案，那么定义性能就变得更加困难，可能也更难证明其价值。

Cadence研究员、该公司IP集团首席技术官克里斯•罗文(Chris Rowen)表示:“业绩总是与环境相关的。“那么你能在笔记本电脑、手机、汽车后视镜或Fitbit中植入什么呢?每一个都是计算问题，它必须符合特定的形式因素。但是会有极限的1瓦、10瓦和100瓦的计算。每个层面都会有极端的部分。”

他指出，这将导致新的架构。“有些问题是受记忆限制的。这就提出了一个问题，即如何在相同的功率水平上获得更大的事实上的共享内存。我们有充分的理由进一步推动摩尔定律。Fitbit需要更强的计算能力。所以向更小的几何图形推进还会继续，但我们不会那么依赖它。在过去，都是更小、更快、更便宜的晶体管。建筑创新将会是一个缓慢的转变。”

信号的速度
在硬件方面有几个关键的挑战需要解决，以提高任何节点的性能。一是在不影响信号完整性的情况下实现更快的信号速度，信号完整性可能受到各种因素的影响，如内存拥塞、热噪声和进程变化。

这些问题在高级节点上尤其成问题，因为连线无法伸缩。如果你把电线想象成电子管道，缩小管道的直径会使物体更难通过它。在10nm和7nm处，导线非常窄，需要更大的功率来推动电子通过，这反过来会产生更多的热量。这改变了功率/性能的等式，迫使芯片制造商真正计划导线在设计中需要如何布线，并考虑折衷是什么。

Teklatech首席执行官Tobias Bjerregaard表示:“如果你能改善电源完整性，就可以为路由释放资源。”“所以现在你需要一个完整的画面来优化设计，这样你就不会在任何方向上限制它。这需要巨大的投资才能更智能地工作，而且在看到规模扩大带来的经济效益之前，你需要有很高的产量。因此，只有那些拥有足够规模的大公司才能从规模扩张中获益。但从65纳米到40纳米，甚至是28纳米，这些优势也都没有了。因此，哪里都有改进的空间。”

第二个挑战涉及处理的并行性和一致性分布，这在构建在数据库平台上的企业应用程序之外一直是一个长期存在的问题，还有一些“令人尴尬的并行”任务，如视频渲染或科学计算。不过，在高级进程节点上增加并行性有了新的紧迫感，因为即使使用一些非常昂贵的电源管理，单个核心也会运行得太热。在多个核心之间分散处理可以降低热量，但这增加了让所有核心协同工作的挑战。

Cadence公司的Rowen说:“如果在能源预算范围内，并且能够负担得起通信费用，就可以进行分布式处理。”“改变的是，我们不是重新使用现有的算法，而是重新开始，新的算法比过去的算法有更多的并行性。”

这就是异构缓存一致性最近得到Arteris和NetSpeed Systems等公司如此多关注的原因。如果核心大小不同，它们仍然可以比单个核心完成更多的工作，但与所有核心都相同的情况相比，它们可以用更少的功率完成工作。

Arteris董事长兼首席执行官查理·贾纳克(Charlie Janac)表示:“我们也看到了在相同节点上设计新架构带来的改进。”“在14nm之后，唯一能缩放的就是密度。功率、性能和每个晶体管的成本都无法按比例调整，因此你需要更加关注如何设计芯片以获得竞争优势。”

更好的软件
提高性能和降低功耗的最大机会之一是在软件方面。

软件通常被视为一个堆栈。从底部开始的是嵌入式驱动器，它们直接内置在硬件中，并告诉硬件执行特定的功能，例如打开块或当热量达到一定温度时降低功率。上面是操作系统层和中间件层，再上面是应用程序层。从历史上看，所有这些都是围绕通用硬件开发的，大多数性能提升都来自于选择现成的或部分定制的加速器。

正在发生变化的是，硬件越来越多地是为特定的终端市场应用而设计的。因此，软件可以在定义硬件规范时发挥作用，而不是根据现有规范构建。硬件仍然需要处理物理问题，并使用芯片制造商已经购买的工具，因此真正的软件定义硬件在大多数情况下可能有些言过其实。但在整个过程中，这款软件的影响力无疑越来越大，部分原因是它更容易修改和修复，即使是在设备发货之后。

其结果是硬件和软件更紧密地集成，代码更少地膨胀。这在具有多个核心的复杂系统中尤其重要，因为需要从体系结构提供的高级特性中驱动价值。一种解决方案是利用硬件提供的性能监视单元。

ARM产品经理保罗•布莱克(Paul Black)表示:“关键是最有效地利用硬件资源。”这可能会对代码的运行时和功耗产生重大影响。一个典型的例子，配置如ARM的大。LITTLE的作用是确保软件在正确的核心上运行，以满足其需求。大内核和小内核的架构看起来与软件完全相同，而且两个内核具有相同的内存视图，但一个针对性能进行了优化，而另一个针对效率进行了优化。另一个例子可能是CPU和GPU之间的负载平衡。挑战在于确保代码在最合适的内核上运行。这可以为显著提高性能提供机会。”

Black表示，在使用硬件性能计数器分析缓存性能等领域时，也可能会发现显著的改进。“我们的性能分析器附带的一个例子是一个简单的程序，它可以对数组的元素求和。当程序沿着数组的行计算值时，缓存的使用是非常有效的，并且缓存重载很少。然而，当通过计算数组列来求和时，缓存需要非常频繁地重新加载。这是一个例子，两段代码具有完全相同的结果，但在执行时间和功耗方面存在巨大差异。”

Mentor Graphics公司Nucleus产品线高级产品经理Andrew Caples对此表示赞同。“所有东西都在向多核转变，甚至包括mcu。我们被问到多核、多操作系统，以及如何将这两者分开——尤其是在资源有限的设备上。这不仅仅是针对一个市场。这是全面的。”

凯博斯表示，这包括消费者、可穿戴设备以及汽车等市场。“ADAS是嵌入式应用程序的crème de la crème。有很多处理单元，您可以在它们上运行复杂的算法或简单的算法，以更少的平均故障时间，更低的材料成本和更少的散热。但这也增加了复杂性，因为现在您要处理多个操作系统。现在，你必须在单个SoC包上进行开发和调试。”

调试运行在现代多核处理器上的软件会带来一系列的挑战。ARM的布莱克指出，硬件和软件的复杂性会随着时间的推移而上升。调试和跟踪基础设施的复杂性不断增加，核心数量不断增加，激进的电源管理和复杂的重置功能都可能成为调试器的噩梦，因为每个实现都是不同的。在调试器中解决这个问题的唯一方法是使用一个功能性的、灵活的脚本API，它可以自定义和扩展调试器功能。但是，调试器的可用性也是一个关键问题，因为您很快就会积累一个复杂的可配置脚本的大型库。因此，一个好的脚本管理系统是必不可少的，它可以让你轻松地理解、管理和共享大量的脚本库。”

机器学习
开发更快芯片的一个新的和有前途的领域是机器学习。创建算法不是为了编程软件，而是为了针对特定的用例优化系统。实际上，您优化了系统，而不仅仅是系统上运行的软件。

NetSpeed系统公司营销副总裁Anush Mohandass说:“目标是在没有人工定制的情况下实现最高性能。”“实现这一目标的方法是机器学习。如果你能在设备上提供大量的训练数据，那就是理想的。所以你要开发库和算法。但这是对不同层次的更多理解。这不仅仅是每秒的操作次数。”

不过，这也引发了未来基准测试的其他问题。一个芯片在适应特定用例时的表现可能会因设备不同而不同，或因用户不同而不同，而且它会随着时间而变化。莫罕达斯说:“这是一种更加微妙的表演。“你必须了解如何训练机器，这意味着你真的需要了解问题是什么，并相应地训练它。当今的技术水平仍然是一刀切的。我们坚持认为它是可配置的，我们今天正在为此而战。”

NetSpeed并非孤军奋战。Sonics的CTO Drew Wingard表示，有很多机会可以从不同形式的计算中学习，并将其应用到新的设计中。“无论是机器学习还是环境智能，都有许多不同形式的计算可供挖掘。这可能包括对数据中心中大量节点的少量计算。计算机视觉是每个人都在谈论的，并且已经取得了惊人的成果。但该模型的全部内容是在相同的功率或能源预算下，每秒提供不断增加的操作次数。现在在架构层面上有创造力，而指标是基于完成这项工作需要多少操作，或者你可以通过多少数据流。”

更快的工具
当然，所有这些都是EDA供应商的好兆头。更复杂的设计和更多的功能需要更多的模拟，在设计过程的后端需要更多的调试和验证。所有这些加起来就是更强大的工具。

Synopsys执行副总裁兼设计集团总经理Antun Domic表示:“从历史上看，EDA约占半导体收入的1.5%至1.8%。“随着我们与关键客户(晶圆代工厂和其他合作伙伴)合作的工作量增加，EDA将加速发展，而不是大型通用市场。我们需要确保我们能够设计出超级先进的芯片。与此同时，在已建立的节点上，有许多设计是在28、40或65纳米上完成的。我们必须确保我们有足够的芯片供应，所以我们必须提高那里的生产力。”

作为仿真的现代后续产品，仿真的销量在过去几年里一直在持续增长，因为传统的模拟器已经失去了动力。机电工程集成仿真也是如此，比如Ansys的多物理场仿真。在未来，随着更多机器学习的实施，这将有助于更快地针对更狭窄的市场开发更快的解决方案。

结论和问题
虽然速度重新成为需求，但在不增加功率预算的情况下，在最先进的节点上获得更高的设计速度变得越来越困难。因此，人们越来越重视用体系结构和微体系结构以及使用机器学习等新技术来解决问题。

但所有这些也给设计增添了许多问号。例如，一个从头开始设计并针对特定用例进行修改的设备是否会被广泛的市场认可为更好地利用资源?这些方法是否与标准化方法一样可靠或更可靠?他们是否能够向客户提出价值主张，以支持更高的销售价格?我们又该如何区分好的客户体验和不好的客户体验呢?

在这一点上，有很多问题和很少的数据。一些高管担心，随着半导体行业沿着这条路走下去，未来几年将会有更多的问题得不到解答。

有关的故事
制造更快的芯片
为什么更好的表现又开始流行。
10nm和7nm的优化挑战
第一部分:如何优化10nm和7nm工艺设计?每增加一个节点，问题就变得更难。
10nm vs 7nm
转移到下一个流程节点的经济效益已经不那么明显了。

埃德·斯珀林

(所有的帖子)
Ed Sperling是《半导体工程》杂志的主编。

2的评论

马库斯说:

2016年8月15日下午5:15

您的文章与我们进行基准测试开发所采用的方法一致。前几代基准测试的目标是处理器的原始性能。基准测试现在以系统为目标，试图测量处理器+软件的性能(和能量)。这两者是不可分割的。其中软件可以是操作系统、驱动程序、协议栈等。

everest333 说:

2016年9月16日凌晨3:17

“……更好的软件
提高性能以及降低功耗的最大机会之一是在软件方面....”

参照摩尔定律，梅定律指出:
“软件效率每18个月就会减半，补偿摩尔定律。”

也就是著名的大卫·梅教授
https://www.cs.bris.ac.uk/~dave/index.html

新架构，加速芯片的方法

埃德·斯珀林

2的评论

留下回复取消回复

知识中心博客

体系结构

无线

物联网(IoT)

环境智能

HSA运行时程序员参考手册

HSA平台系统架构规范

技术论文

热门文章

选择正确的高带宽内存

芯片技术和行业动态即将发生重大变化

选择正确的RISC-V核心

周回顾:半导体制造，测试

微型fpga和嵌入式fpga

知识中心
探索实体、人员和技术

相关文章

浮点8能解决AI/ML开销吗?

选择正确的高带宽内存

启动资金:2022年10月

启动资金:2022年11月

高级节点IC应力影响可靠性

使用HBM3提高性能和功率

3D-IC可靠性随温度升高而降低

芯片功率分布建模在7nm以下变得至关重要

赞助商

最近的评论

关于

导航

与我们联系

新架构，加速芯片的方法

埃德·斯珀林

2的评论

留下回复取消回复

知识中心博客

体系结构

无线

物联网(IoT)

环境智能

HSA运行时程序员参考手册

HSA平台系统架构规范

技术论文

热门文章

选择正确的高带宽内存

芯片技术和行业动态即将发生重大变化

选择正确的RISC-V核心

周回顾:半导体制造，测试

微型fpga和嵌入式fpga

知识中心探索实体、人员和技术

相关文章

浮点8能解决AI/ML开销吗?

选择正确的高带宽内存

启动资金:2022年10月

启动资金:2022年11月

高级节点IC应力影响可靠性

使用HBM3提高性能和功率

3D-IC可靠性随温度升高而降低

芯片功率分布建模在7nm以下变得至关重要

赞助商

通讯注册

受欢迎的标签

最近的评论

关于

导航

与我们联系

知识中心
探索实体、人员和技术