中文 英语

电源管理升温

热效应现在是设计的关键部分,但如何处理它们并不总是显而易见或直接的。

受欢迎程度

电源管理最近被讨论了很多次,尤其是在移动设备上。但权力只是问题的一部分,甚至可能不是最重要的部分。

热量是最终的限制因素。如果你不能舒服地把设备戴在脸上或手腕上,那么你就不会有一个成功的产品。在微观和宏观层面上控制热量是整个产品设计的一个重要方面。

限制是在宏级别上创建的。“热量必须散发出去,”微软应用工程经理约翰•威尔逊(John Wilson)表示导师图形.“当我们想到手持设备或小型设备时,在热管理方面可以做的事情就只有这么多了。你所能做的就是将热量分散或隔离。”

Wilson强调了将热管理作为设计过程中不可或缺的一部分的重要性。“热工程师必须与设计团队互动。它不能被认为是下游。从历史上看,你可以只考虑最坏情况下的功耗,并为此设计一个冷却解决方案,但对于任何尺寸有限的东西,比如移动设备,我们没有那么奢侈。我们必须理解时间常数是如何影响它的使用方式的。我们必须了解在特定条件下,设备加热的速度有多快。我们必须围绕这种动态响应设计控制方案,必须使用软件来控制它。”

温度传感器
温度传感器安装在设备内部有两个原因之一。“有些单独的电路对热非常敏感,它们的行为可能会随着温度的变化而变化。超音速.“还有一些是为了芯片的安全而存在的。这些数字电路是共享的。当温度超过阈值时,告警会响起。它们会导致采取规避措施,如降低电压或减慢时钟,以防止芯片烧毁。”

传感器本身是相当小的块艰难的IP为每个流程节点定制。“传感器IP利用了PN结的逆温度特性,因此您可以从中获得相当好的温度曲线,”低功耗解决方案架构师Steve Carlson说节奏.“然后它需要线性化,并提供寄存器接口。也可能包括校准能力。”

传感器构成了热管理堆栈的一部分。卡尔森继续说:“它的核心是板载温度传感器,这些传感器可以单独读取,也可以在芯片上有一个聚集点。“在硬件层面,你有故障安全级别的热管理,你现在就关闭,否则芯片就会陷入热失控,遭受不可逆的损坏。”当你到达触发点时,系统就会关闭,这可能不太好。

然后是从固件到应用程序的软件堆栈。他解释说:“在固件和操作系统级别,通常会将触发点设置在热失控水平之前的某个温度,或者基于轨迹预测的温度。”“现在你有时间保存数据,并在芯片冷却后恢复系统。在操作系统本身,有一些热缓解策略,可能包括线程迁移、寄存器重映射、使用可能被物理分割的不同内存,或者从内存或计算角度移动活动来分散热量。”

虽然传感器的准确性似乎很重要,但情况并非总是如此。温加德说:“有几个传感器分散在一起是很好的,但它们不必非常精确。”“需要更高精度的是那些电路的正确操作依赖于它的地方。”

Navraj Nandra是DesignWare模拟和混合信号IP组的高级营销总监Synopsys对此对此表示赞同。“今天的传感器可以达到亚摄氏度到几摄氏度的精度。对于这种类型的应用来说,这已经足够准确了。”

传感器的位置

如果热量是限制因素,那么你真的需要在感受到热量的地方安装传感器。“你不能把温度传感器放在用户级设备的表面(例如手机的外部),所以你必须把传感器放在电路板上,”门拓的威尔逊指出。“这些将提供有关你期望在设备外表面发生什么的信息。你需要考虑特定的电源场景,确定手机上潜在的热点在哪里,然后在电路板上放置传感器来捕捉这些信息。”

然而,事情并不总是那么简单。Ansys产品工程和支持副总裁Aveek Sarkar表示:“你可能在同一个区域有八个核心,所以没有空间来增加这些传感器。“所以你把它放在L2缓存附近,期望热量会扩散到温度传感器。但这可能不会那么快发生。随着电线尺寸越来越细,你可能无法在造成局部热点之前解决问题。”

该公司设计技术和研发副总裁Prasad Subramaniam表示:“每一个采用28nm及以下工艺的器件都有温度传感器eSilicon.“我们使用过程、电压、温度(PVT)传感器来监控包括温度在内的过程条件。通常,它们被放置在芯片的多个位置,并以多种方式使用。我们也在制造测试中使用它们,这样我们就可以了解每一块硅的关键参数。”

在芯片上,有各种各样的放置策略可以使用。温加德说:“如果你有一个对温度非常敏感的块,那么你就想把传感器尽可能地靠近。”这并不真正适用于数字逻辑,但它适用于模拟和混合信号系统。另一种是基于活动,布局将影响产生热量的电路的位置。知识产权提供商能提供的指导并不多。即使他们提供了,也仍然是系统集成商必须对芯片进行热分析。”

影响放置的另一个因素与所使用的温度控制机制有关。“复杂的实现动态电压和频率缩放(DVFS)技术依赖于分布式温度传感,”Nandra说。“使用这种策略,传感器嵌入在每个发热处理单元(GPU、CPU等)附近,这样就可以根据性能和温度调整单个处理器的供应水平、时钟频率甚至负载。在这些情况下,可以实现多达数十个分布式传感器。它们通常被链接在一起,并由单个温度处理单元读出。”

时间常数和热梯度
放置的部分问题与时间常数和热梯度有关。卡尔森说:“放置位置很关键,因为你不希望所有可能变热的东西都有温度传感器。”“有许多不同的操作场景,数据很重要。视频回放可能很热,但它依赖于视频流。你还需要预测轨迹。如果设计可以在120˚C下工作,那么就可以在100˚C下进行热缓解——远远早于达到临界水平。”

在某种程度上,你需要多长时间做出反应,取决于你离传感器有多远。温加德说:“如果你担心热量是芯片上的破坏性机制,考虑到我们正在工作的时钟频率,那么相对较小的温度变化需要数千个时钟周期。”“这很糟糕,因为这意味着传感器是之前活动的历史视图。但这是好的,因为反应的时间不是以几十或几百个周期来衡量的。在热领域,没有什么东西会迅速变化。”

brian1
图表由Cadence提供:采样技术和传播时间

晶体管级别的时间尺度是皮秒,但在芯片级别可能高达几秒甚至几分钟。根据您要做的事情,可能会跨越许多数量级。金属的导电性比硅好得多。卡尔森补充说:“有些人考虑使用金刚石衬底,因为它是一种很好的热导体和电绝缘体。”

当扩展到包和用户级设备时,时间常数可能更长。威尔逊说:“当设备产生热量时,需要一定的时间才能让设备的外表面感受到热量。”“如果你开始用力驾驶手机,几秒钟后你就会开始感受到手机外表面的任何东西。”

主要处理器的热图已经发布,显示了最热的地区和最冷的地区。温加德说:“它们之间的距离只有几度。”“局部加热并不意味着芯片的这一部分比其他部分热20度。这并没有那么极端。如果是这样的话,还会有其他问题。例如,膨胀的热系数意味着包装会开始破裂,或者连接会出现应力问题。”

Subramaniam表示同意:“放置是一个有趣的问题,但实际上整个模具的温度梯度并没有那么大。我们通常把它们放在四个角落,一个放在中间。另一种方法是将芯片分成若干段,并在网格的每个段中放置一个。这完全取决于你打算如何处理从传感器获得的数据。”

最大功率
威尔逊解释说,最大功耗数据与外形因素和使用情况有关。“如果我们打开设备,让它满负荷运行,就内部组件温度和外部表面温度而言,会有一个温度使设备无法使用。你总是会受到外表面温度的限制,为了舒适起见,它可能是45˚C或更低。达到极限的速度比任何内部元件的温度都要快。对于手机来说,它是5瓦的数量级。假设热量扩散的效率是100%现实中会有热点。如果设备需要产生更多的能量,它只能在很短的时间内完成。这是不可持续的。”

虽然每个人都同意热分析已经成为强制性的,但细节的水平是开放的解释。卡尔森说:“你必须检查大量数据,如果你观察电线的运行位置,你就可以计算出温度从芯片的一个区域到另一个区域的速度。”“可以做一些简化,比如查看金属密度计算,如果你在SoC级别而不是子系统级别上工作,它们就可以工作。”

相关问题也在增加
芯片一直处于高温状态也有其他缺点。“设备可靠性是很重要的,而且与你跑步时的温度呈指数相关,”卡尔森说。“如果你总是在高温下跑步,你的电线会比在较低温度下跑步磨损得更快。”

brian2

对于更小的设备几何形状,这些问题越来越严重,并增加了总设计成本。“热挑战源于两个趋势,”首席执行官说Teklatech.“首先,结垢会导致功率密度增加,这意味着更多的热量会在更小的区域内消散。其次,扩展还会导致更快的切换时间,这意味着电力的使用时间更短。电阻路径消耗的功率为P = I^2 *R,这意味着短时间的大电流爆发比长时间的小功率爆发在设备中消耗更多的热量。快的设备比慢的设备产生更多的热量,即使它们移动的电荷量相同。”

功率控制是最常用的电源管理策略之一,但这造成了设计困境。温加德说:“能够在硬件上采取规避行动,意味着在必须采取任何行动之前,你可以跑到更高的温度。”“响应时间更短,而且有保证,这在硬件上比在软件上要容易得多。使用分布式硬件也意味着我们可以处理更多数量或更广泛种类的传感器,而不会产生太多的开销。”

Bjerregaard对此表示赞同,但他提出了一个警告。“细粒度功率门控可以更好地控制热功率和总功率。但更细粒度的电源门控也需要更快的通电时间。处理涌流的规范方法是逐步打开电源门,但这需要更长的时间,并且直接违背了细粒度电源门控的需求。”

急流是解决另一个问题的副产品。Bjerregaard解释说:“我们基本上都有冲击电流峰值,因为我们需要为处理动态电源电压降(DVD)而添加的所有decaps充电。”他认为,解决这个问题的唯一办法是更明智地处理DVD。“这可以通过两种互补的方式来实现,一种是通过塑造动态功率波形来减少动态电压降,而不添加脱扣,另一种是只在最重要的地方添加脱扣。”

与新包装这些天,越来越多的技术被研究,热问题将变得更加难以分析。”2.5 d而且三维集成电路你可能还得看看你上面和下面的东西。”温加德说。“电源引脚的位置和现有的散热系统不仅会对散热的位置产生重大影响,还会对散热的效率产生重大影响。”

许多相关的问题也会变得更糟。Bjerregaard说:“随着芯片集成水平的提高,封装级电流峰值的挑战也越来越大。“在模具级别控制动态功率完整性变得越来越重要,因为将几个模具更紧密地集成在一起只会夸大封装级别的动态功率问题。”

最坏的情况
为了进行热分析,你首先要弄清楚什么会造成最坏的情况,这可能说起来容易做起来难。卡尔森说:“人们很擅长最坏情况的探索,但当你这样做时,你往往会过度设计。“这很昂贵。对于军事系统,你可能会为了保险而做很多这样的事情。”

卡尔森解释了为什么这么多人在热管理方面有问题:“有些人认为他们有方便的矢量模拟他们运行它们进行热分析,但没人知道测试用例在做什么。越来越多的人想要确定,所以他们会关注宏观情况。要做到这些,你需要大量的吞吐能力。”

卡尔森补充说:“仅仅因为热管理的介入并不是故事的结束。你可能会在芯片的某些时间和不同部分启动热管理,但如果你等得太晚,并且有相邻的问题,那么这些温度梯度可能会对齐,你可能会太晚。缓解方案应该让你跑到那个点,但确保你不会越线。”

其中验证S很重要。“很难提供指导软IPSubramaniam说。人们不知道它将如何被强化,也不清楚IP中的活动将是什么,因为这取决于使用模型。不同的应用程序将不同地使用IP,因此热量可能不同。”

很明显,必须执行动态分析,但是应该使用什么执行引擎呢?”虚拟平台模型只是没有必要的准确性,”卡尔森说。“这是因为相互连接的层次结构和记忆缺失,这使你无法准确地了解功耗和热梯度将会是什么样子。人们又开始倾向于周期精确模拟运行数十亿个循环,这样你就可以启动愤怒的小鸟了。”

系统运行的环境也会产生复杂性。温嘉德指出:“如果你看看汽车,它们通常必须在更极端的环境中运行,因为它们的环境温度可能非常不同。”“它们可能离其他热源很近,这意味着我可能无法通过关机来控制体温。我可能不是最大的发热量者。”

Wilson补充说:“如果你有125˚C的限制,而设备在100˚C的环境中,那么你的裕度就会小得多。这意味着你要么必须使用导电路径将热量吸收到温度较低的设备上,比如冷板,要么将大量空气吹过它。”

有关的故事
芯片热损伤扩大
热问题在高级节点上重新浮出水面,提出了半导体随着时间的推移在各种应用中的表现如何的问题。
热问题越来越严重
热是一个多学科的问题,而且在高级节点越来越难以处理。



留下回复


(注:此名称将公开显示)

Baidu