随着计算需求的持续增长,高效的热量管理变得越来越重要——这不仅体现在单个芯片上,还体现在整个数据中心、AI计算集群,甚至未来的量子系统中。
随着晶体管数量的持续增长,我们越来越接近硅的物理和热极限。随着晶体管尺寸的缩小,漏电流不断增大,每平方毫米产生的热量也越来越难以消散。近年来,业界已转向先进的封装技术(例如小芯片、3D堆叠和中介层),以突破这些限制,而不是强行突破。如今,性能提升不再仅仅依赖于缩小晶体管尺寸,而更多地依赖于巧妙的架构、互连和热设计策略。
为了对这些涉及热量和计算机在纳米尺度上工作方式的物理问题给出适当的答案,本文将涉及热量的基本科学、热量在电子器件中产生的方式和原因,以及我们为控制热量而开发的各种方法。
热的基础知识
如果你还记得高中物理,热量其实就是构成我们世界的原子和分子的随机运动。当一个分子的动能高于另一个分子时,我们说它更热。当两个物体接触时,热量会从一个物体传递到另一个物体,持续传递直到两者达到平衡。这意味着较热的物体会将部分热量传递给较冷的物体,最终温度会介于两者之间。
传热所需的时间取决于相关材料的热导率。热导率衡量的是材料传导热量的能力。
像泡沫塑料这样的绝缘体具有相对较低的热导率,约为 0.03,而像铜这样的导体具有较高的热导率,约为 400。在两个极端下,真正的真空具有 0 的热导率,而钻石具有已知的最高热导率,超过 2,000。
要记住的一件重要事情是,热量总是流向较冷的区域,但从技术上讲,并不存在“冷”这种东西——只有当某物的热量低于周围环境时,我们才会感觉到它的“冷”。
需要记住的一点是,热量总是流向较冷的区域,但严格来说,并不存在所谓的“冷”——只有当物体的热量低于其周围环境时,我们才会感觉到它的“冷”。我们需要的另一个关键定义是热质量,它代表了物体对温度波动的惯性。使用相同尺寸的暖气炉,加热一个房间比加热整栋房子要容易得多。这是因为一个房间的热质量比整栋房子的热质量小得多。
我们可以用烧水这个简单的例子来概括所有这些概念。当你打开炉子时,热的火焰会与较冷的锅接触。由于锅的材质是良好的热导体,火的热量会传递到水中,直到水沸腾。
烧开水所需的时间取决于加热方式、锅的材质和水量。如果你尝试用小打火机烧开一壶水,比用炉子的大火烧开要花很长时间。这是因为炉子的热输出(以瓦特为单位)比小打火机高得多。
其次,如果锅的导热系数更高,水沸腾的速度也会更快,因为更多的热量会被传递到水中。如果你足够有钱,一口钻石锅*是你的梦想!最后,我们都知道,小锅比大锅烧水更快。这是因为小锅需要加热的热质量更小。
烹饪完成后,你可以让水自然冷却。冷却过程中,水中的热量会释放到较冷的房间。由于房间的热质量远高于锅具,因此其温度不会有太大变化。
芯片中的三大热源
既然我们了解了热量的工作原理以及它在物体之间的传递方式,那么我们首先来谈谈它的来源。所有数字电子设备都由数百万甚至数十亿个晶体管组成。本质上,晶体管是每秒数十亿次开关的电控开关。通过将它们连接在一起,我们可以构成计算机芯片的复杂结构。
这些晶体管工作时,会从三个来源耗散功率:开关、短路和漏电。开关功率和短路功率都被视为动态热源,因为它们会受到晶体管导通和关断的影响。另一方面,漏电功率被视为静态,因为它保持恒定,不受晶体管工作状态的影响。
两个晶体管连接在一起形成一个非门。nMOS(底部)导通时允许电流通过,pMOS(顶部)关断时允许电流通过
我们先从开关电源说起。要打开或关闭晶体管,我们必须将其栅极接地(逻辑 0)或 Vdd(逻辑 1)。但这并非像拨动开关那么简单,因为这个输入门的电容非常小。我们可以把它想象成一个微型可充电电池。为了激活栅极,我们必须将电池充电至超过某个阈值。当我们准备再次关闭栅极时,我们需要将电荷释放到地。虽然这些栅极非常微小,但在现代芯片中却有数十亿个这样的栅极,它们每秒开关数十亿次。
每次栅极电荷释放到地时,都会产生少量热量。为了计算开关功率,我们将活动因子(即在任何给定周期内晶体管开关的平均比例)、频率、栅极电容和电压的平方相乘。
现在我们来看一下短路功率。现代数字电子技术采用一种称为互补金属氧化物半导体 (CMOS) 的技术。晶体管的排列方式使得电流永远不会直接流向地。在上面的非门示例中,有两个互补晶体管。当上面的晶体管导通时,下面的晶体管截止,反之亦然。这确保输出为 0 或 1,并且与输入相反。
然而,当我们开关晶体管时,两个晶体管同时导通的时间非常短。当一组晶体管关闭而另一组晶体管导通时,它们会在到达中间点时同时导通。这是不可避免的,并为电流直接流向地面提供了一条临时路径。我们可以尝试通过加快晶体管在导通和关断状态之间的切换来限制这种情况,但无法完全消除它。
随着芯片工作频率的提高,状态变化和瞬时短路也会增多。这会增加芯片的发热量。为了计算短路功率,我们将短路电流、工作电压和开关频率相乘。
这两个都是动态功耗的例子。如果我们想降低动态功耗,最简单的方法就是降低芯片频率。但这通常不太实际,因为它会降低芯片的性能。另一个选择是降低芯片的工作电压。以前的芯片工作电压为 5V 及以上,而现代 CPU 的工作电压约为 1V。
通过设计晶体管以较低的电压工作,我们可以减少动态功耗造成的热量损失。动态功耗也是超频时 CPU 和 GPU 发热的原因。超频不仅会增加工作频率,通常还会提高电压。工作频率越高,每个周期产生的热量就越多。
数字电子产品中产生的最后一种热量是漏电功率。我们通常认为晶体管要么完全导通,要么完全关闭,但实际情况并非如此。即使晶体管处于非导通状态,也总会有微弱的电流流过。这是一个非常复杂的公式,而且随着晶体管尺寸的不断缩小,其影响只会越来越严重。
当它们变得更小的时候,当我们想要它们关闭时,阻挡电子流动的材料就越来越少。这是限制新一代芯片性能的主要因素之一,因为漏电功率的比例每一代都在不断增加。
物理定律将我们逼入了绝境,而且这个困境正在加剧。正因如此,像 NPU 和 TPU 这样的 AI 加速器(它们将海量计算封装在极小的空间内)带来了全新的重大散热设计挑战。这些芯片通常部署在气流和功率预算有限的数据中心,这使得高效的散热策略比以往任何时候都更加重要。
除了性能之外,可持续性也正成为人们关注的焦点。数据中心正越来越多地探索液浸式冷却、热回收和低全球变暖潜能值 (GWP) 制冷剂,以在满足环保目标的同时控制高耗能硬件。绿色冷却技术已不再仅仅是未来的目标——它正在现代基础设施中积极部署。
热电冷却,又称珀耳帖 (Peltier) 设备,目前仍属于小众市场,但近年来重新引起了人们的兴趣。一些制造商尝试了 AIO + TEC 的混合解决方案,以提升冷却性能,超越传统的空气或水冷。虽然这些装置仍然效率低下且耗电,但热电材料的改进最终可能会使其在特定应用中更加实用。
同样,蒸汽压缩式制冷机和相变系统仍然主要用于数据中心和极端超频环境。但目前,人们正在研究使用先进制冷剂和新型压缩机设计的紧凑、高效的冷却解决方案,这些解决方案有朝一日可能会将亚环境冷却技术引入更主流的设备。
如何保持芯片冷却
我们知道了电子产品的热量从何而来——但我们该如何处理它呢?我们需要消除热量,因为如果温度过高,晶体管就会开始发生故障并损坏。
热节流是芯片内置的冷却机制,用于在散热不足时进行自我冷却。如果内部温度传感器检测到温度过高,芯片会自动降低工作频率以减少产生的热量。然而,这种情况并非我们所希望的,而且还有更好的方法来处理计算机系统中多余的热量。
有些芯片实际上并不需要复杂的散热方案。看看你的主板,你会看到几十个没有散热器的小芯片。它们是如何避免过热损坏的呢?原因很可能是它们本身就不怎么发热。大型、强大的 CPU 和 GPU 可以耗散数百瓦的功率,而小型网络或音频芯片的功耗可能只有几分之一瓦。
在这种情况下,主板本身或芯片的外壳可以充当足够的散热器,保持芯片冷却。不过,一般来说,一旦功耗超过 1 瓦,就需要开始考虑适当的热管理了。
一块老款主板上有很多小型芯片,没有散热片——它们不需要主动散热,因为它们产生的热量很少。北桥和南桥芯片采用被动散热,它们被铝制散热片覆盖
这里的关键在于尽可能降低材料之间的热阻。我们希望创建一条最短、最高效的路径,让热量从芯片传导到周围空气。正因如此,CPU 和 GPU 芯片顶部都配备了集成式散热器 (IHS)。芯片内部的实际硅片尺寸远小于封装尺寸,但通过将热量分散到更大的区域,我们可以更有效地冷却芯片。在芯片和散热器之间使用优质的导热硅脂也至关重要。如果没有这条高导热性的路径,热量从 IHS 传导到散热器就会更加困难。
冷却主要有两种形式:被动冷却和主动冷却。被动冷却使用一个简单的散热器连接到芯片上,依靠周围的气流带走热量。这种材料导热系数高,表面积大,能够有效地将芯片的热量传递到周围的空气中。
电压调节器和内存芯片通常不需要被动冷却,因为它们产生的热量较少。通常只有高端 DDR5 模块和服务器内存才需要主动冷却。
同样,大多数手机处理器都是被动冷却的,尽管某些小众或游戏智能手机有时会使用蒸汽室或微型有源风扇来管理更高的热负荷。
芯片性能越高,产生的功率就越大,所需的散热片尺寸也就越大。这就是为什么手机处理器的性能不如桌面级处理器:根本无法提供足够的散热能力来维持性能。
一旦功耗达到几十瓦,您很可能会开始考虑主动冷却。这需要使用风扇或其他方法强制空气流过散热器,使其能够承受高达几百瓦的功率。然而,为了充分利用如此强大的冷却能力,我们需要确保芯片产生的热量能够有效地扩散到散热器的整个表面。如果没有有效的散热方式,那么即使拥有巨大的散热器也毫无意义。
这时,液冷和热管就派上用场了。两者都执行相同的基本任务:将尽可能多的热量从芯片传递到散热器或散热器。在液冷装置中,热量通过高导热性导热膏从芯片传递到水冷头。水冷头通常由铜或其他高导热材料制成,它会加热液冷。液体会储存热量并将其输送到散热器,然后散发到空气中。对于笔记本电脑等无法安装完整液冷装置的小型系统,热管非常常见。与基本的铜管相比,热管装置将芯片热量传导出去的效率可提高 10 到 100 倍。
Xbox 360 中使用了集成热管的散热器。热管利用相变冷却技术显著改善热传递,比单独使用固体金属更有效地将热量从 CPU 或 GPU 等热组件中带走
热管与液冷非常相似,但采用相变来增强热传递。在热管内部,液体受热后蒸发成蒸汽。蒸汽沿着热管流动,直到到达较冷的一端,在那里冷凝回液体。然后,液体通过重力或毛细作用返回到较热的一端。
这种蒸发冷却的原理与您在淋浴或游泳池出来时感觉寒冷的原理相同:液体在蒸发时吸收热量,在冷凝时释放热量。
既然我们可以将芯片中的热量传递到热管或液体中,那么如何有效地将这些热量释放到空气中呢?这时,散热片和散热器就派上用场了。一根简单的水管或一根热管会将一些热量传递到周围的空气中,但热量不会太多。为了真正降低温度,我们需要增加暴露在温度梯度下的表面积。
散热器或散热器中的薄翅片将热量分散到较大的表面积上,使风扇能够有效地将热量带走。翅片越薄,在给定空间内可容纳的表面积就越大。但是,如果翅片太薄,它们就无法与热管充分接触,从而无法有效地将热量传递到翅片中。
这是一个微妙的平衡——这就是为什么在某些情况下,较大的散热器性能可能不如较小、更优化的散热器。Gamers Nexus制作了一张很棒的图表(如下),展示了典型散热器的工作原理:
先进且独特的冷却技术
到目前为止,我们讨论的所有冷却方法都是通过将热量从热芯片传递到周围空气来实现的。这意味着芯片的温度永远不会低于其所在房间的环境温度。如果我们想要将温度降至环境温度以下,或者需要冷却像整个数据中心这样庞大的物体,就需要运用一些额外的科学技术。这时,冷却器和热电冷却器就派上用场了。
热电冷却,也称为珀尔帖装置,目前并不十分流行,但未来潜力巨大。这些装置通过消耗电力将热量从冷却板的一侧传递到另一侧。它们使用特殊的热电材料,可以通过电势产生温差。
当直流电流流过该设备时,热量从一侧吸收并转移到另一侧,使“冷”侧温度降至环境温度以下。目前,这类设备仍属于小众市场,因为它们需要大量能量才能实现显著的冷却效果。不过,研究人员正在努力开发更高效的版本,以实现更广泛的应用。
正如状态转换可以传递热量一样,改变流体的压力也可以用来传递热量。这正是冰箱、空调以及大多数其他大型制冷系统背后的原理。
在这些系统中,一种特殊的制冷剂流经一个闭合回路,最初是蒸汽,经过压缩、冷凝成液体、膨胀,然后蒸发回蒸汽。这个循环不断重复,并在过程中传递热量。压缩机确实需要能量输入,但这样的系统可以冷却到远低于环境温度。这就是数据中心和建筑物即使在夏季最炎热的日子也能保持凉爽的原因。
对于电子产品来说,这样的系统通常是二阶冷却系统:首先,芯片产生的热量被排放到房间中,然后房间中的热量通过蒸汽压缩系统排放到外面。
然而,极限超频玩家和性能爱好者可以将专用冷却器直接连接到 CPU,以获得额外的冷却性能。也可以使用液氮或干冰等消耗品,临时实现*冷却。
MIT的解决方案
近日,MIT也提出了一个芯片冷却方案。
麻省理工学院林肯实验室开发了一款专用芯片,用于测试和验证封装芯片堆栈的冷却解决方案。该芯片能够消耗极高的功率,模拟高性能逻辑芯片,通过硅层和局部热点产生热量。然后,当冷却技术应用于封装芯片堆栈时,该芯片会测量温度变化。当芯片被嵌入芯片堆栈中时,研究人员可以研究热量如何在堆栈层中移动,并对保持芯片冷却的进展进行基准测试。
“如果你只有一块芯片,你可以从上方或下方进行冷却。但如果你开始将多个芯片堆叠在一起,热量就无处散发了。目前还没有冷却方法可以让业界堆叠多个如此高性能的芯片,”Chenson Chen 说道,他与 Ryan Keech 共同领导了该芯片的开发,两人都来自该实验室的 先进材料和微系统组。
该基准芯片目前正由波音公司和通用汽车共同拥有的研发公司HRL实验室使用,用于开发用于3D异质集成(3DHI)系统的冷却系统。异质集成是指将硅芯片与非硅芯片(例如射频(RF)系统中使用的III-V族半导体)堆叠在一起。
“射频元件可能会变得非常热,并且以非常高的功率运行——这给 3D 集成增加了额外的复杂性,这就是为什么如此需要这种测试能力,”Keech 说。
美国国防高级研究计划局 (DARPA) 资助了该实验室开发基准测试芯片,以支持 HRL 项目。所有这些研究都源自 DARPA 的“用于 3D 异构集成的微型集成热管理系统 ( Minitherms3D )”项目。
对于国防部而言,3DHI 为关键系统开辟了新的机遇。例如,3DHI 可以扩大雷达和通信系统的探测范围,使先进传感器能够集成到无人驾驶飞机等小型平台上,或者允许人工智能数据直接在现场系统(而非远程数据中心)中进行处理。
该测试芯片是由该实验室的电路设计师、电气测试专家和微电子实验室的技术人员合作开发的。
该芯片具有两个功能:产生热量和感测温度。为了产生热量,该团队设计了能够在极高功率密度下运行的电路,功率密度达到千瓦/平方厘米,与当前及未来高性能芯片的预计功率需求相当。他们还复制了这些芯片中的电路布局,使测试芯片可以作为逼真的替代品。
“我们调整了现有的硅技术,主要用来设计芯片级加热器,”陈教授说道。他为该项目带来了多年的复杂集成和芯片设计经验。21世纪初,他帮助实验室率先制造了双层和三层集成电路,引领了3D集成的早期发展。
芯片的加热器模拟了堆栈内的背景热量水平和局部热点。热点通常出现在芯片堆栈最隐蔽、最难以触及的区域,这使得3D芯片开发人员难以评估冷却方案(例如输送冷液的微通道)是否能够到达这些位置,并且是否足够有效。
这就是温度传感元件的作用所在。芯片上分布着陈所比喻的“微型温度计”,当使用冷却剂时,这些元件可以读出芯片上多个位置的温度。
这些温度计实际上是二极管,或者说是开关,当施加电压时,电流会流过电路。随着二极管升温,电流电压比会发生变化。“我们可以检查二极管的性能,例如知道温度是 200 摄氏度、100 摄氏度还是 50 摄氏度,”Keech 说。“我们创造性地思考了设备过热失效的原因,然后利用这些特性设计出实用的测量工具。”
Chen 和 Keech,以及实验室其他设计、制造和电气测试专家,目前正与 HRL 实验室的研究人员合作,将芯片与新型冷却技术相结合,并将这些技术集成到 3DHI 堆栈中,以增强射频信号功率。HRL 联合首席研究员 Christopher Roper 在最近 宣布该项目的新闻稿 中表示:“我们需要冷却相当于 190 多个笔记本电脑 CPU(中央处理器)的热量,但尺寸要与单个 CPU 封装相同。”
Keech 表示,快速交付芯片的时间表是通过芯片设计、制造、测试和 3D 异构集成等各个阶段的团队合作克服的挑战。
他说:“堆叠架构被认为是微电子技术的下一个前沿。我们希望帮助美国政府找到有效整合这些架构的方法,并让这些芯片发挥出最高的性能。”
为什么冷却比以往任何时候都重要
所有电子产品都需要散热,但散热方式多种多样。散热的目的是将热量从发热的芯片或系统转移到温度较低的环境中。没有办法真正地散热——我们能做的只是将热量转移到不会造成问题的地方。
所有数字电子设备都会因其内部晶体管的运行特性而产生热量。如果这些热量得不到妥善管理,半导体材料就会开始分解,损坏芯片并缩短其使用寿命。
热量是所有电子设计师的敌人,也是制约性能提升的关键因素之一。我们不能简单地把 CPU 和 GPU 做得更大,因为没有切实可行的方法来冷却如此强大的设备。你根本无法足够快地散热。
随着计算需求的持续增长,高效的热量管理变得越来越重要——这不仅体现在单个芯片上,还体现在整个数据中心、AI计算集群,甚至未来的量子系统中。热管理创新如今已成为扩展技术本身的核心。
本文来自作者:半导体行业观察,不代表爱氧气立场,平台仅提供信息存储空间服务。
本网站属于非赢利性网站,如对本稿件有异议或投诉,请联系(iyangqi@qq.com)爱氧气处理。