18.luck新利
的意见

加速电路仿真10倍与gpu

日益庞大和复杂的soc给传统的基于cpu的电路仿真带来了压力。

受欢迎程度

文/ Samad Parekh (Synopsys)和Srinivas Kodiyalam (NVIDIA)

半导体设计和验证的许多方面都有不断增长的“对速度的需求”,这种需求已经超过了在cpu上运行所带来的性能改进。电子设计自动化(EDA)公司通过创建更智能的软件算法来缩短仿真时间,有时以牺牲精度为代价。

随着图形处理单元(gpu)从渲染图形和视频转向更传统的计算任务,电路仿真已经成为EDA的一个领域,它已被证明可以在不影响精度的情况下使用gpu加速。当今庞大的片上系统(SoC)器件所体现的设计超融合给传统的基于cpu的电路仿真带来了巨大的挑战。更大、更复杂的电路、先进工艺节点的边际缩小和寄生性增加、集成的模拟内容、更大、更快的嵌入式存储器以及复杂的高速I/O都给仿真速度和容量带来了压力。随着3D集成电路技术的广泛采用,情况只会变得更加困难。

gpu的一些特性使其非常适合电路仿真。许多并行计算核心支持数千个线程,其中大多数线程可以独立调度,支持并发流。大的专用内存促进模拟数据结构,提高带宽和延迟。许多电路仿真问题需要求解密集矩阵,这一过程在GPU架构中工作得很好。一个或多个gpu和一个并行cpu集群的异构组合已被证明比单独的cpu加快一个数量级的模拟速度。这些结果已经在各种电路类型(PLL, SerDes, SRAM, PHY等)中获得,器件计数在数亿个元件中。

最近的一个案例研究看看在NVIDIA Volta V100和Ampere A100 gpu上运行Synopsys PrimeSim模拟器所获得的性能增益。A100是最新的NVIDIA GPU(2020),比其前身V100(2017)提供了许多优势,为许多应用程序提供了更好的性能。Tensor Core架构支持64位浮点(FP64)双精度数据类型和操作,加速一般矩阵-矩阵乘法(GEMM)。这些功能是实现更好的电路仿真性能的关键之一。

案例研究着眼于在cpu、V100 gpu和A100 gpu上运行8种不同设计的spice级模拟的结果。总而言之,V100在纯cpu上的速度提高了10倍,A100在V100上的速度提高了2.4倍。不同的设计包括多达7M个晶体管,29M个电阻和90M个电容器。

其他案例研究表明,Synopsys PrimeSim和NVIDIA gpu的强大组合还可以加速其他麻烦的电路模拟,包括一些以前无法解决的电路模拟。一个例子是模拟CMOS图像传感器列中的模数转换器(adc)。即使是列adc之间的小电压降也会导致图像失真,因此在设计制造之前发现任何问题是很重要的。

这绝不是一个需要解决的小问题。在案例研究设计中,图像传感器包含一个48M像素的阵列,按列和行排列,其中数千列adc必须一起模拟。由此产生的电路包含数百万个晶体管和数十亿个电阻器和电容器。尽管高像素数和大尺寸的电路,SPICE模拟必须高度精确,以检测小电压差。如果没有NVIDIA gpu的帮助,cpu无法解决尺寸和精度的问题。使用4个V100 gpu和32个cpu进行模拟成为可能,当使用4个A100 cpu时,模拟速度几乎提高了2倍。

另一个例子是在具有电力输送网络(PDN)的存储器阵列上运行FastSPICE电路模拟。目的是分析压降对存储器时序和开关电流的影响。与前面的例子一样,在设计进入硅之前找到任何问题是至关重要的,这样它们就可以在不昂贵的芯片转换的情况下修复。FastSPICE模拟必须对数千个矢量和角重复进行,这对性能要求很高,而数百万个晶体管和数亿个电阻和电容器则强调容量。

事实证明,这种特殊的电路模拟挑战特别适合CPU/GPU异构组合。使用PrimeSim与V100 GPU提供了5倍的cpu改进,并通过了阈值,使该模拟可以跨PVT(过程,电压,温度)角和测试向量重复。存储器厂商首次能够准确验证PDN电压降对存储器阵列性能的影响。

这些例子清楚地表明,gpu为半导体工艺技术的进步和电路复杂性的增加所带来的电路仿真挑战提供了一个很好的解决方案。与传统的仅cpu模拟相比,V100 GPU的速度提高了10倍,并解决了一些仅cpu无法实现的电路。在某些情况下,更新、更强大的A100 GPU的性能是V100的两倍,运行速度平均快50%。新思PrimeSim仿真和NVIDIA计算平台的结合为下一代电路仿真提供了所需的功率。

Srinivas Kodiyalam是NVIDIA工业高性能计算和人工智能的高级开发者关系经理。



留言回复


(注:此名称将公开显示)

Baidu