未来的芯片将比以往任何时候都更热
5多年来,在摩尔定律似乎不可避免的推动下,工程师们设法每两年将他们可以封装到同一区域中的晶体管数量增加一倍。但是,当该行业追求逻辑密度时,一个不需要的副作用变得更加突出:热量。
在当今的 CPU 和 GPU 等片上系统 (SoC) 中,温度会影响性能、功耗和能效。随着时间的推移,过多的热量会减慢关键信号在处理器中的传播,并导致芯片性能的永久下降。它还会导致晶体管泄漏更多电流,从而浪费功率。反过来,增加的功耗会削弱芯片的能源效率,因为执行完全相同的任务需要越来越多的能量。
问题的根源在于另一条定律的终结:Dennard 缩放。该定律指出,随着晶体管线性尺寸的缩小,电压应降低,以使给定区域的总功耗保持不变。Dennard 缩放在 2000 年代中期有效地结束了,当时在不影响晶体管整体功能的情况下,任何进一步降低电压都是不可行的。因此,虽然逻辑电路的密度继续增长,但功率密度也随之增长,产生热量作为副产品。
随着芯片变得越来越紧凑和强大,高效的散热对于保持其性能和使用寿命至关重要。为了确保这种效率,我们需要一种工具,可以预测新的半导体技术(制造晶体管、互连和逻辑单元的工艺)如何改变热量的产生和去除方式。我和 Imec 的研究同事已经开发出了这一点。我们的仿真框架使用行业标准和开源的电子设计自动化 (EDA) 工具,并通过我们的内部工具集进行增强,以快速探索半导体技术与使用它构建的系统之间的交互。
到目前为止,结果是不可避免的:热挑战随着每个新技术节点的增加而增加,我们需要新的解决方案,包括设计芯片和系统的新方法,如果它们有任何希望能够处理热量的话。
冷却的极限
传统上,SoC 是通过将空气吹过连接到其封装的散热器来冷却的。一些数据中心已经开始使用液体代替,因为它比气体吸收更多的热量。液体冷却剂(通常是水或水基混合物)可能适用于最新一代高性能芯片,例如 Nvidia 的新型 AI GPU,据报道,该芯片的功耗高达 1,000 瓦。但是,风扇和液体冷却器都无法与即将推出的较小节点技术相媲美。
热量从芯片中去除时,会遵循一条复杂的路径,但其中 95% 通过散热器排出。 IMEC 公司
以纳米片晶体管和互补场效应晶体管 (CFET) 为例。领先的芯片制造商已经转向纳米片器件,将当今鳍式场效应晶体管中的鳍片换成一堆水平半导体片。CFET 将这种架构发挥到了极致,垂直堆叠更多的片材并将它们分成两个器件,从而将两个晶体管置于与一个晶体管大致相同的封装中。专家预计半导体行业将在 2030 年代引入 CFET。
在我们的工作中,我们研究了即将推出的纳米片 A10 版本(指 10 埃或 1 纳米的节点)和名为 A5 的 CFET 版本,IMEC 预计该版本将在 A10 之后出现两代。对我们测试设计的模拟表明,A5 节点的功率密度比 A10 节点高 12% 到 15%。这种增加的密度反过来将导致在相同工作电压下预计温升 9 °C。
互补场效应晶体管将纳米片晶体管相互堆叠,从而提高密度和温度。为了在与纳米片晶体管(A10 节点)相同的温度下工作,CFET(A5 节点)必须在降低的电压下运行。 IMEC 公司
9 度可能看起来并不多。但是,在数十万到数百万个芯片封装在一起的数据中心中,这可能意味着稳定运行和热失控之间的区别 — 即可怕的反馈回路,其中温度升高会增加漏电功率,温度会增加漏电功率,依此类推,直到最终安全机制必须关闭硬件以避免永久性损坏。
研究人员正在寻找基本液体和空气冷却的先进替代方案,以帮助缓解这种极端高温。例如,微流体冷却使用蚀刻在芯片中的微小通道来使液体冷却剂在设备内循环。其他方法包括射流撞击,包括将气体或液体高速喷射到芯片表面,以及浸入式冷却,将整个印刷电路板浸入冷却剂浴中。
但是,即使这些新技术开始发挥作用,仅依靠冷却器来释放额外的热量也可能是不切实际的。对于移动系统来说尤其如此,它们受到尺寸、重量、电池电量的限制,并且需要不烹饪用户。与此同时,数据中心面临着不同的限制:由于冷却是整个建筑的基础设施费用,因此每次新芯片到来时都更新冷却设置的成本太高且破坏性太强。
性能与热量
幸运的是,冷却技术并不是阻止薯条油炸的唯一方法。各种系统级解决方案可以通过动态适应不断变化的热条件来控制热量。
一种方法是将热传感器放在芯片周围。当传感器检测到令人担忧的温度升高时,它们会发出工作电压和频率降低的信号,从而降低功耗,以抵消发热。但是,虽然这样的方案解决了散热问题,但它可能会显着影响芯片的性能。例如,芯片在炎热的环境中可能总是工作不佳,任何曾经将智能手机放在阳光下的人都可以证明这一点。
另一种称为热冲刺的方法对于多核数据中心 CPU 特别有用。它是通过运行一个核心直到它过热,然后在第一个核心冷却时将作转移到第二个核心来完成的。此过程可以最大程度地提高单个线程的性能,但当工作必须在多个内核之间迁移以执行较长的任务时,可能会导致延迟。热疾跑还会降低芯片的整体吞吐量,因为芯片的某些部分在冷却时总是会被禁用。
因此,系统级解决方案需要在热量和性能之间取得谨慎的平衡。为了有效地应用它们,SoC 设计人员必须全面了解功率在芯片上的分配方式和热点出现的位置、传感器的放置位置、何时触发电压或频率降低,以及芯片的某些部分需要多长时间才能冷却。然而,即使是最好的芯片设计师,很快也需要更多创造性的热量管理方法。
利用芯片的背面
一个有前途的追求包括在晶圆的底面或背面添加新功能。该策略主要旨在提高功率传输和计算性能。但它也可能有助于解决一些热量问题。
新技术可以降低需要输送到多核处理器的电压,以便芯片在以可接受的频率运行时保持最小电压。背面供电网络通过降低电阻来实现这一点。背面电容器可降低瞬态电压损耗。背面集成稳压器允许不同的内核根据需要在不同的最小电压下工作。IMEC 公司
Imec 预见了几种背面技术,这些技术可能允许芯片在较低的电压下工作,从而减少它们产生的热量。路线图上的第一项技术是所谓的后端供电网络 (BSPDN),它的作用正如其名:它将电力线从芯片的前端移动到后端。所有先进的 CMOS 代工厂都计划在 2026 年底之前提供 BSPDN。早期的演示表明,它们通过使电源更靠近晶体管来降低电阻。电阻越小,电压损失就越小,这意味着芯片可以在降低的输入电压下运行。当电压降低时,功率密度会下降,温度也会下降。
通过改变散热路径中的材料,背面输电技术可以使芯片上的热点更加热。 IMEC 公司
在 BSPDN 之后,制造商也可能会开始在背面添加具有高储能容量的电容器。在高性能 SoC 中,由印刷电路板和芯片封装中的电感引起的大电压摆幅可能特别成问题。背面电容器应该有助于解决这个问题,因为它们更靠近晶体管,使其能够更快地吸收电压尖峰和波动。因此,这种安排将使芯片能够在比单独使用 BSPDN 更低的电压和温度下运行。
最后,芯片制造商将推出背面集成稳压器 (IVR) 电路。该技术旨在通过更精细的电压调整进一步降低芯片的电压要求。例如,用于智能手机的 SoC 通常具有 8 个或更多计算内核,但芯片上没有空间让每个内核都有自己的分立式稳压器。相反,一个片外稳压器通常一起管理四个内核的电压,而不管所有四个内核是否面临相同的计算负载。另一方面,IVR 将通过专用电路单独管理每个内核,从而提高能源效率。将它们放在背面可以节省正面的宝贵空间。
目前尚不清楚背面技术将如何影响热管理;需要演示和模拟来绘制效果图。添加新技术通常会增加功率密度,芯片设计人员需要考虑热后果。例如,在放置背面 IVR 时,如果 IVR 均匀分布,或者如果它们集中在特定区域(例如每个内核和内存缓存的中心),热问题是否会得到改善?
最近,我们表明,背面供电可能会引入新的热问题,即使它解决了旧的热问题。原因是创建 BSPDN 时留下的硅层越来越薄。在正面设计中,硅衬底的厚度可以达到 750 微米。由于硅导热性好,因此这个相对笨重的层通过横向分散晶体管的热量来帮助控制热点。然而,添加背面技术需要将衬底减薄至约 1 μm,以便从背面接触晶体管。夹在两层电线和绝缘体之间,这种细长的硅片无法再有效地将热量转移到两侧。因此,来自过度活跃晶体管的热量可以被困在局部并被迫向上流向冷却器,从而加剧热点。
我们对 80 核服务器 SoC 的仿真发现,BSPDN 可以将热点温度升高多达 14 °C。 设计和技术调整(例如增加背面金属的密度)可以改善这种情况,但我们需要更多的缓解策略来完全避免这种情况。
为 “CMOS 2.0” 做准备
BSPDN 是 Imec 称之为 CMOS 2.0 的硅逻辑技术新范式的一部分。这个新兴时代还将看到先进的晶体管架构和专用逻辑层。这些技术的主要目的是优化芯片性能和电源效率,但它们也可能提供热优势,包括改善散热。
在当今的 CMOS 芯片中,单个晶体管将信号驱动到附近和远处的元件,从而导致效率低下。但是,如果有两个驱动器层呢?一层将处理长线并使用专用晶体管缓冲这些连接;另一个将仅处理 10 μm 以下的连接。因为第二层中的晶体管将针对短连接进行优化,所以它们可以在较低的电压下工作,这又会降低功率密度。不过,具体多少仍不确定。
未来,芯片部件将在自己的硅片上制造,使用适合每个芯片的工艺技术。然后,它们将被 3D 堆叠以形成比仅使用一种工艺技术构建的 SoC 功能更好的 SoC。但工程师们必须仔细考虑热量如何流经这些新的 3D 结构。 IMEC 公司
显而易见的是,解决该行业的热量问题将是一项跨学科的努力。任何一项技术(无论是热界面材料、晶体管、系统控制方案、封装还是冷却器)都不太可能单独解决未来芯片的热问题。我们将需要他们所有人。借助良好的仿真工具和分析,我们可以开始了解每种方法的应用量以及应用时间。尽管 CMOS 2.0 技术的热优势(特别是背面功能化和专用逻辑)看起来很有希望,但我们需要确认这些早期预测并仔细研究其影响。例如,对于背面技术,我们需要准确了解它们如何改变热量的产生和消散,以及这是否会产生比解决的更多的新问题。
芯片设计人员可能会倾向于采用新的半导体技术,因为以后可以在软件中处理不可预见的热问题。这可能是真的,但只是在一定程度上。过于依赖软件解决方案会对芯片的性能产生不利影响,因为这些解决方案本质上是不精确的。例如,修复单个热点可能需要降低较大区域的性能,否则该区域不会过热。因此,SoC 和用于构建它们的半导体技术必须齐头并进。
好消息是,越来越多的 EDA 产品正在为高级热分析添加功能,包括在芯片设计的早期阶段。专家们还呼吁采用一种新的芯片开发方法,称为系统技术协同优化。STCO 旨在通过全面考虑系统、物理设计和工艺技术来消除它们之间僵化的抽象界限。深度专家需要走出自己的舒适区,与其他芯片工程领域的专家合作。我们可能还不知道如何解决该行业日益严峻的热挑战,但我们乐观地认为,通过正确的工具和协作,可以做到这一点。