中文 英语
系统与设计
的意见

异构计算模型带来数量级性能突破

采用gpu加速电路仿真技术。

受欢迎程度

通过Srinivas Kodiyalam (NVIDIA)和Samad Parekh (Synopsys)

随着对更高计算性能的需求不断增长,高性能计算行业正在走向异构计算模型,gpu和cpu一起工作来执行通用计算任务。在这种异构计算模型中,GPU充当CPU的加速器,以减轻CPU的负担并提高计算效率。为了利用这种计算模型和大规模并行GPU架构,应用软件需要重新设计。Synopsys和NVIDIA工程师一直在合作使用gpu来加速电路仿真技术。

集成电路设计的复杂性持续呈指数级增长。就在过去的十年里,随着工艺技术从平面到finFET技术的进步,设计一直受到复杂性的阻碍,例如非常大的器件数量和互连寄生。例如,将45nm工艺技术与当代5nm技术节点进行比较,器件数量以及工艺、电压和温度角的数量都增加了约10倍。

此外,随着器件和组件尺寸的减小,需要考虑更多的物理效应来进行精确的模拟。寄生效应在过去可能有一个边际效应,但现在对整体电路性能的影响要大得多。在这段时间里,CPU的性能提升已经基本停滞,而GPU的性能一直在增长,并继续超越摩尔定律。随着时间的推移,这些趋势只会进一步扩大两种计算方法之间的差距。

器件模型评估和矩阵求解是电路仿真的两个主要部分。设备模型评估产生了大量的独立计算任务。当比较CPU和GPU架构时,CPU被设计为快速处理广泛的任务,但它们在并发性方面受到限制。相比之下,gpu被设计成数千个进程核同时运行,从而提高了吞吐量性能。因此,gpu在大规模独立并行任务方面具有优势。在具有大量晶体管计数的现代设计中,每个设备计算都是相互独立的,每个设备实例都可以映射到一个GPU线程,以并行地运行数千个计算,从而提高吞吐量。

大型后布局电路也会产生大型矩阵,这需要大量的浮点运算来求解。例如,10M的矩阵维数可以产生超过100G的浮点运算。cpu并不是为处理如此大规模的浮点运算而构建的,这是模拟运行时间较长的另一个原因。由于gpu的计算性能和内存带宽大大增强,利用gpu实现更高效的矩阵解决方案成为可能。例如,特斯拉V100 gpu可以在双精度下提供7 TFLOPS。

Synopsys对此的PrimeSim连续提供具有独特GPU技术的下一代架构,提供执行全面模拟和RF设计分析所需的显著性能改进,同时满足签收精度要求。在带有CUDA gpu的DGX系统上运行的基准模型显示,与多核cpu相比,速度提高了4-12倍。虽然性能提升在各种电路类型上都是全面的,但在运行大型布局后模拟时可以看到最好的改进。当与较长的瞬态运行时间相结合时,性能改进将更加明显。

PrimeSim通过利用CUDA gpu的大量并行性实现了最令人印象深刻的性能提升。涉及的核心技术有:

  • 异构GPU和CPU架构上的同步并行计算
  • 用于求解电路仿真方程组的鲁棒稀疏求解器
  • 精确高效的IC组件建模
  • 紧凑高效的数据模型和GPU管理,以及
  • 快速电路仿真数据库的建立和数据处理

越来越明显的是,不断增加的纳米级IC模拟复杂性需要多个gpu进行快速互连的异构计算。

Srinivas Kodiyalam是NVIDIA负责工业高性能计算和人工智能的高级开发者关系经理。

Samad Parekh是Synopsys定制设计和物理验证组的高级员工产品经理。



留下回复


(注:此名称将公开显示)

Baidu