中文 英语
18lickc新利
的意见

人工智能硬件、电力优化软件开始和结束在硅

人工智能的新时代的硬件要求高效的软件硅功率分析和优化。

受欢迎程度

人工智能(AI)处理硬件出现了作为今天的科技创新的关键环节。人工智能硬件架构是非常对称的成千上万的大数组处理元素(瓷砖),导致欧元+门设计和巨大的能源消耗。例如,特斯拉自动驾驶软件堆栈消耗72瓦的电力,而神经网络加速器消耗12 w(来源:边缘)。从斯坦福大学最近的一项研究表明,构建和训练一个复杂的神经网络可能导致高达78000磅的二氧化碳排放量(相当于60名乘客从旧金山飞往纽约)。设计高效的能源消耗人工智能已经成为关键,不仅降低运行成本的农场和提高电池寿命,而且对保护我们的地球。

优化人工智能力量的挑战需要一个全面的方法,其中包括1)分析软件和硬件一起目标优化,2)定义最好的架构和电源管理,3)获得早期总在RTL阶段和故障识别最好的微架构,4)使权力实现期间成本函数,和5)执行有效功率和信号完整性的签收。

1。系统级力量分析,或如何定义最好的人工智能硬件体系结构

系统级架构识别的关键是最好的架构实现了最大的性能和更低的权力。由于强烈tile-to-tile流量算法在人工智能硬件运行时和大量的交换活动同步发生,关键是分析软件应用程序在硬件上的执行模型定义最好的软件和硬件架构传播交换活动。技术包括时钟蔓延,分配内存访问随着时间的推移,发展更好的dvf,提高电源关闭计划,优化电源管理策略。


例如:功率与性能和能量平衡分析
来源:Synopsys对此

2。权力使用模拟分析软件和硬件

另一种方法来分析一个瓷砖的完整的芯片和软件是使用模拟。仿真允许用户进行动力分析时,真正的工作负载(高达数十亿周期)是在芯片上运行windows对di和识别/ dt,峰值功率和平均功率分析。由于大量的MAC操作每周期,确定这些窗户对IR降和峰值功率分析至关重要。仿真快速获得权力的工作负载并提供反馈的软件和硬件工程师;例如,它可以允许用户识别任何权力泄漏在tile-to-tile操作期间,可以通过改变软件关闭禁用分层时钟门控,例如。

3所示。早期在RTL动力分析和优化

由于对称和AI的复制架构硬件,是非常重要的识别最好的微架构,时钟门控、内存控制或数据选通的瓷砖在RTL阶段。还原能力的高度复制的瓷砖将导致高能储蓄在芯片级。这是通过身体知道RTL权力分析能提供早期但准确的功率估计(通常在10%的验收)。RTL权力分析进而使快速假设分析找出最好的微架构,并提供指导如何提高时钟控制效率和内存访问速度。额外的数据控制在这个阶段会导致25%的电能节约人工智能处理瓷砖。

4所示。故障的力量——AI-style设计的很重要的问题

由于大量的操作时,人工智能算法在硬件上运行,故障已成为电力消耗的关键力量。故障电力可以代表总功率的40%。通常,故障计算功率流很晚当门级仿真与时间延迟。这是太迟执行微架构的变化,考虑故障电源作为电力在实现期间成本的一部分,或执行特定ECOs减少故障能力。


故障功率与总功率的比例不同的设计
来源:Synopsys对此

更多的新方法可以预测故障能力准确地从RTL或0延迟模拟。这种方法使估计故障电力5%的早期结果流中,推动更好的设计决策在RTL开发和更好的权力在实现和生态成本,并大大减少故障能力。


早期的故障估计量在5%的gl组合力量的结果
来源:Synopsys对此

5。最终的芯片级力量签收

最后一步是为权力和IR降的签收。主要的挑战是设计的大小和周期的数量分析。这个问题可以解决大规模并行工作负载分析,同时利用本地和可用的云资源。芯片级结果分析可以进一步加快利用基于题目的重用能力分析。IR降分析vectorless技术可用于生成向量实现最大瞬时峰值功率或最大红外下降。

结论

推动现代和未来的人工智能硬件必须从了解软件。AI力量建立一个全面的设计解决方案固有的微架构在设计过程的早期,提供了框架来完成最终设计完成和结果,减少后期意外的风险。



留下一个回复


(注意:这个名字会显示公开)

Baidu