中文 英语

处理器数量停滞不前吗?

有芯片达到高原处理器核的数量他们可以有效地使用?可能是的,直到你改变编程模型。

受欢迎程度

调查数据表明,额外的微处理器内核并没有被添加到出类拔萃,但你必须深入研究数字找出到底是怎么回事。

原因是复杂的。它们包括从软件编程模型市场变化和新的用例。所以当调查数字似乎是平的,市场和技术动态也有很大的影响在重塑这些趋势在未来。

当前比较突出显示在刚发表的功能验证调查,由威尔逊研究和导师,西门子业务。基于1492名受访者的调查显示,——大约一半的人参与asic——专注于芯片大小和处理器数量等方面。调查数据显示,稍微增加一些“8以上”的类别,但几乎在+ / - 3%的误差。这使得在大致相同的号码是2016。soc有两个处理器的前两个调查结果相比略有下降。

”处理器的数量已经停滞在个人电脑或便携式设备这样的平台,”迈克尔·弗兰克说的和系统架构师Arteris IP。“这与少摩尔定律水准比它变得非常困难,从软件的角度来看,为更多的处理器找到足够的工作。除非你有高度并行工作负载,真的很难让所有这些核心忙。”

工作负载转移。“移动应用程序处理器,这是一个卷数量的产品,一般的建筑似乎已经定居在一群八个核心——至少就目前而言,“说拉里•Przywara高级集团营销主管Tensilica IP节奏。“我们看到的是,核的数量上升做视觉和人工智能类型的工作负载”。

但在智能手机市场,有足够的空间变化。“我们看到一系列市场增加计算需求,从汽车到基础设施,”彼得·格林哈尔希说的副总裁技术和研究员手臂。“这意味着我们离极限有用的处理器。新的应用程序有不同的需求,如电力、安全性和效率。从低功耗物联网的角度来看,我们可以预计增加采用多核解决方案。我们可以预计,这一趋势将继续增加更多的应用程序和终端市场。”

产品营销经理马库斯Willems ASIP工具Synopsys对此对此表示赞同。“我们看到的是恰恰相反的出现在调查,即芯片上可编程组件的数量正在增加。这是由于特定于应用程序,或特定领域的加速器越来越软件可编程。32位的多核集群超标量体系结构核心可能变得有限,因为记忆是一个问题。”

似乎是有一个巨大的改变发生在较小的嵌入式市场。“如果我们看看新芯片在嵌入式市场出来,他们通常是双核,四核配置类型,”杰弗里•汉考克说高级产品经理导师的嵌入式软件部门。“仍然有单核的设备,但多核终于来在这一领域,。从硅提供商的角度来看,他们更乐意添加核心如果人们可以使用它们,只要他们能留在他们的成本结构。”

但这些数字隐藏更大的故事。“虽然嵌入式处理器的数量在一个ASIC可能是平的,特定领域或专用处理器的数量增加,”拉维萨勃拉曼尼亚表示,副总裁和总经理部门导师IC验证的解决方案。“我们看到,soc在边缘设备正在改变性质的数据,和大量的计算,正在增长,和大量的计算移动应用程序或特定领域的处理器。”

新的工作负载有显著不同的处理要求。“传统的ASIC与多个嵌入式处理器的计算机架构不能提供所需的共和党/ mw / MHz许多新的应用,“萨勃拉曼尼亚表示。“需要注意的是,算法复杂度远远超过摩尔定律,因此,驾驶新架构。这些新架构的编程模型是联合为了共同优化编程模型和硬件架构。”

这也是推动大型数据中心的架构。“我们看到超级计算机在核的数量上升,因为他们的工作负载,比如有限元素和大迭代系统,很容易可平行的,“说Arteris弗兰克。“一切大型线性代数工作量比例很好。”

cpu的局限性
虽然通用cpu是有用的,它们的普遍性也是一个限制器。”的一个问题是,cpu不擅长什么,”弗兰克说。“cpu擅长处理单个线程,有很多的决定。这就是为什么你有分支预测,他们已经研究多年的主题。但加速器,尤其是自定义加速器,服务两个方面。一个是,你有很多的数据移动,CPU不擅长处理它。这里我们看到向量扩展更广泛。也有很多非常具体的操作。如果你看神经网络,非线性阈值和巨大的矩阵乘法,这样做与CPU效率低下。所以人们试图移动工作负载接近记忆,或专门的功能单元。”

与处理器体系结构是记忆密切相关。“对于某些应用程序,内存带宽限制增长,“导师的萨勃拉曼尼亚表示。”的一个关键原因专用处理器的发展,以及内存(或near-memory)计算机体系结构,直接解决传统的限制冯诺依曼体系结构。这种情况尤其当这么多能量花之间移动数据处理器,和记忆与能源用于实际计算。”

隐藏在数字的另一件事是核心的复杂性。“我们看到的是,尽管集群保持不变,个人核心变得更加强大,”Synopsys对此“斯说。“我们看到的趋势对于某些域迁移到64位。在这个意义上,相同数量的核心,但更多的功能。”

由软件有限公司
电脑切换从一个单处理器多核20多年前,然而,能成功地利用多核的应用程序的数量仍然有限。“如果你看看多少并行性可以提取的常规程序,你可以找到一个级别的并行的两条指令每个时钟周期,”弗兰克说。“如果你改变你的编程模型成为一个显式的数据流模型,在数据依赖关系管理,你可以突然得到13 x 20倍的性能提升。”

人类能做的更好吗?“寻找一个程序员可以编写并行程序,可以有效地使用两个线程,”弗兰克补充道。“你会发现这些。试图找到人,当你没有一个高度并行的工作负载,使用超过四线程。很努力。和您想要添加更多的线程,问题是更加复杂和困难。”

面向数据编程的区别。“并行计算的概念已经几十年计算机科学的一部分,但一直属于高度专业化的任务,和并行处理是困难的,“萨勃拉曼尼亚表示。“这极大地改变了过去五至七年的大规模并行计算是可能的。这是特别重要的在今天的许多新“基于数据的学科,在编程模型需要有效地支持软件算法运行在非常大的并行计算架构。现在,他们正在扩展到异构并行计算架构,和我们看到新的编程框架出现的新的工作负载——Tensorflow,咖啡,MLpac, CUDA,火花,恐鸟,只是几个显著降低壁垒在编程这些系统。”

进展情况之外的人工智能空间,。“有编程模型或编程语言中,执行的编程模型,就像,Cilk任务型模式,”弗兰克说。“有支持诸如OpenMP任务模型的运行时库。采用这些时,你会突然发现你能填补10处理器。所以一旦我们达到这一水平,而这些类型的编程模型,基于任务的数据依赖关系管理程序模型——你会发现会有下一步的增加处理器。”

还有其他因素促使人们看多核编程。“有些人从功能安全或看多核安全领域,“导师的汉考克说。“设计师需要隔离,或独立,多核成单个子系统为了保护一些东西。然而,人们不愿意改变。你需要开拓者带头,还有可能是一些大的事件发生。在这之前,他们倾向于建立他们已经知道的和舒适。汽车需要有人像特斯拉来改变一切。传统汽车公司最初只看到一个在硅谷创业公司解雇他们。突然,他们注意,意识到自己需要做出改变。”

新司机
而智能手机仍然体积和美元的领导者,他们不再是唯一的细分市场,导致技术进步。“在汽车应用中计算正在经历一个令人难以置信的转变,由需求更身临其境,车载经验丰富,增加的安全和方便,自动化水平和走向软件定义功能,”格林哈尔希手臂说。“这已经导致了一种快速整合个人的电子控制单元(ecu)更少的多功能ecu,这不仅需要更多的CPU计算能力的多核CPU,而且异构计算元素的部署。现在我们看到soc也随着多核cpu的gpu, isp和ML加速器,允许软件部署到最有效的计算每个工作负载的元素。”

进入汽车芯片的计算能力是惊人的。”,这一趋势无疑是朝着特定领域的架构,片上和片外加速器,和嵌入式可编程逻辑,”塞吉奥Marchese说,技术营销经理OneSpin解决方案。“对于许多应用程序,把更多的标准处理器问题不是最有效的解决方法。例如,如果你看看,特斯拉自我驱动芯片,它有12 Cortex-A72处理器好好部分的芯片面积。然而,两个神经网络加速器面积的两倍(见图1)。”

图2:死的特斯拉的筹码。来源:OneSpin解决方案

图1:死的特斯拉的筹码。来源:OneSpin解决方案

节奏的Przywara表示同意。“我们看到在汽车的支持更复杂的2级,3级自动车辆,多核集群的dsp支持雷达,和引擎支持日益复杂的人工智能算法,如图2所示。我们看到的例子也许超过8 AI引擎被用来运行所需的人工智能算法,因为上衣的数量。”

图3:块在一个复杂的汽车芯片。来源:节奏

图2:块在一个复杂的汽车芯片。来源:节奏

人工智能自己是一个司机。”人工智能,它是关于你如何处理内存访问和地址计算,”斯说。“我们看到很多活动和大量的处理器开发没有现成的类型的处理器。一些系统将有多个人工智能处理器,仅仅因为他们有一个不间断函数需要处理一些事情,然后另一个人工智能处理器醒来去做更大规模的计算,你可能有多个处理器分配给的任务。”

人工智能还影响较小的边缘设备,。”单片机正在做机器学习的能力,和他们的能力进一步提高的需求方”Przywara说。“TinyML有助于推动。这是他们没有传统上使用,但随着越来越多的应用人工智能和机器学习研究和发展,这将是一个驱动程序为单片机与DSP加速器,或者所有产品,成为更有能力。这将推高的趋势,这些设备数量的处理核心。”

5 g也产生相当大的影响。“无线电调制解调器使用一个巨大的DSP,”斯说。“这是强大到足以运行必要的任务序列或交错。搬到5克,很明显,一个DSP无法工作了。相反,他们去掉某些事情,把他们变成多个可编程加速器——一个DSP专门用于特定的功能,如做矩阵求逆或均衡。但并不是所有相同的DSP或它的倍数。多核,每个专业的指令集和内存接口。”

基站看到更多处理器的增长。“5 g基站应用程序中,我们看到大量的核接近近100核心,工作负载,“Przywara说。“5克,当然在基础设施方面,将是推动的事情。”

未来的增长
所以我们应该期望在未来?“将会有更多的特殊处理器,”弗兰克说。“标准SoC的领域,我希望处理器核的数量会增加,可能256核心,但不是对个人电脑,笔记本电脑或手机。我们将看到它是在嵌入式系统针对汽车,越来越对高性能和一致性的需求已经成为比在机器学习方面更重要。”

利用它,编程模型必须改变。“asic的数量与新计算机体系结构由负载功率和性能效率迅速增长,“萨勃拉曼尼亚表示。“需求的解决方案来解决各种各样的工作负载(如语音识别、x射线分析、目标检测、人脸识别、生物细胞)的进化已经迫使新领域的发展,在计算分析中,新的数学模型来了解具体问题在哪里。它迅速将这些发现的世界计算机科学,具体地说,新电脑的性能的分析架构。这是一个世界领先的计算机体系结构发展的异构、多处理架构,从冯·诺依曼神经形态计算架构。我们刚刚开始了文艺复兴时期在今天的计算机体系结构。”

也许是时候调查的问题被重写,以更好地反映芯片处理能力的进化。也许应该确定独立的指令流的数量,或控制线程,但所有这些指标将继续会偏向今天的control-driven范例。



2的评论

Tanj班纳特 说:

所有增加的处理器数,包括添加专门的处理器在一个SOC——最终包装。和摩尔定律实际上是一个经济法律关于包装。它被Dennard启用技术扩展,与它相伴,直到大约15年前,但摩尔定律仍然活着的原因除了最终的跑道是经济引擎创建的前35年已经变得无处不在,不再需要任何一个方法来获取目标的要求。

当我们看并行性我们可以区分两种不同的趋势。一个是并行算法。这是最纯粹的形式在矢量或张量处理单元。另一个是包装平行,和多个cpu的使用在服务器或数据库通常是这样的。包装并行使用池计算互连资源池,但一般来说最好的作品当各个线程实际上毫无共同之处。地面之间,经典”试图让事情走快一倍2核心算法”是迷人的学术训练,但实际上如果你注意真正建成,* *不是所有常见。甚至类似与数以百计的GPU处理器做什么看起来像一份工作实际上是成功,因为工作是切成多边形,可以独立处理。电话SOC是通常使用2或3芯,因为一个监督网络,一个支持屏幕和其他地区的用户体验(严重卸载GPU和信号处理器),当一个应用程序逻辑运行。

现在,那些核心数量攀升的情况包装占主导地位。现代数据中心有一个套接字服务器CPU尽可能多的核心一架云起步时15年前。值得注意的是,一个套接字也可能在架相同数量的客户。和这些客户彼此无关。所以问题在今天得到更高的核心计算服务器上一点也不像那些旧算法难题。更多关于保持资源——内存,带宽,缓存,核心——干净地分离。处理得当,它实际上是非常接近线性扩展核心数,看不到尽头。

包装将继续推动这个由于经济储蓄仍然来自摩尔定律建立的生态系统。它是便宜比架构建一个套接字。也便宜来构建一个套接字比两个套接字。你也得到更好的带宽在一个比当你需要跨越两个套接字。总功率/核心下降甚至在套接字总功率上升。

伟大的事情是,应用程序运行在这个不需要重写。整个事情看起来像原来的1、2或4个核心服务器不介意用4套接字或者0.0625的套接字。

这可能是完全不同的比比例持续车辆,手机,甚至是笔记本电脑。他们似乎推进更多的投资到专门的加速器。他们只有一台机器或一个用户来娱乐,所以也许会有一个上限,没有动力去增加核心,或加速器。

但在这两种情况下的经典multi-programming问题不是今天是什么推动中心扩展。

harrie geenen 说:

harrie geenen
其他策略也可能更快的计算。我们可以从根本上改变今天的微处理器的体系结构通过人类的大脑结构的变化。
当前微处理器工作超过3 Ghz,人与30 Hz,所以没有G。
你会明白,一个老式的微处理器架构可以以每秒30步骤。说话,把你的头脑,忘记。
所以与其30 Hz(没有晶体管但在电解质离子运输)的人必须有一个超级架构仍然能够有所成就。对于那些不熟悉这个,在意识的一切总是总是通过大脑的一种主要的高速公路上,一辆公共汽车和一个大约每秒20比特宽度。有100000个内存块永久看沿着高速公路。在协议的情况下,回复遵循总线上一个答案。所以当你说话的时候,这种类型的环境已经在意识的预处理器。
回到真正的微处理器。没有平行输入但串行、20 k总线和大量的比较器。
例d dos攻击
攻击与一个或某些形式的大量的网络包。新的处理器将整个的包裹在内部总线上,刑事包裹被认为在一个步骤和扔垃圾或者发送者的IP地址存储后续垃圾。
为特定的应用程序(如类以声音为基础的成像),体系结构需要调整。
我估计这样的微处理器可以成为当前处理器的一百万多倍。

留下一个回复


(注意:这个名字会显示公开)

Baidu