首页>商情资讯>行业新闻

英伟达Rubin平台引入微通道冷板技术,100%全液冷设计

2026-1-19 10:18:00
  • 英伟达在 CES 2026 上正式揭开 Vera Rubin 计算平台的面纱。继 Blackwell 之后,这一代平台在两条线上同时“加码”:一条是算力本身的跃升,另一条则是彻底押注全液冷散热,把高功耗 AI 芯片的温控方案做了一次系统级重构 137。

英伟达Rubin平台引入微通道冷板技术,100%全液冷设计

英伟达在 CES 2026 上正式揭开 Vera Rubin 计算平台的面纱。继 Blackwell 之后,这一代平台在两条线上同时“加码”:一条是算力本身的跃升,另一条则是彻底押注全液冷散热,把高功耗 AI 芯片的温控方案做了一次系统级重构 137。

Rubin 平台:算力与液冷一体化设计

Rubin NVL72 被设计成一个机柜级的 AI 计算单元:

72 张 Rubin GPU + 36 颗 Vera CPU 集成在同一系统中,通过 NVLink 6 与高性能以太网进行互联,形成紧耦合的“算力工厂” 2710。

系统级带宽和互联架构相比 Blackwell 时代又上了一个台阶,网络能效也被进一步压榨出来 27。

在核心硬件上:

Rubin GPU

搭载第三代 Transformer 引擎,主打大模型训练与推理的吞吐能力。

采用新一代高带宽内存 HBM4,总带宽相较上一代显著提升,官方给出的峰值带宽水平达到 TB/s 量级;在典型大模型场景中,推理性能可比 Blackwell 提升数倍,训练效率也有数倍级增幅 2710。

Vera CPU

采用定制化 Arm 架构,核心数与线程数进一步增加,用来承接数据预处理、I/O 与调度工作,相比 Grace 时代在通用计算和数据处理上有明显提升 27。

从系统视角来看,Rubin 不再只是“把更多 GPU 堆在一起”,而是把 GPU、CPU、存储、网络以及散热方案当成一个整体来做联合设计,这一点在液冷架构上体现得尤为明显 2。

100% 全液冷:从“风冷为主”到“风扇退场”

Rubin NVL72 的一个重要标志,是彻底抛弃了传统风冷组件,转向 100% 全液冷设计 1410。与 Blackwell 时代约 80% 的液冷覆盖率相比,这一代平台通过一系列结构调整,把液冷渗透进了系统的每一个关键热源:

取消大量内部线缆,做机柜与模块的“去线缆化”布局,为冷板与管路预留空间。

全面重构冷板结构,引入 微通道冷板,让冷却液更贴近发热核心。

在典型部署中,Rubin 平台通过液冷分配单元(CDU)和冷却回路对 GPU、CPU 等部件进行定向控温,机柜基本不再依赖高风量风扇来“压住”热功耗。这种设计直接带来的结果是:噪音显著降低,机房散热布局也变得简洁得多 46。

微通道冷板:把热从芯片“抠出来”

这代平台最值得关注的技术之一,是微通道冷板的正式上量。相较传统冷板,Rubin 在三个层面做了深挖:

缩短传热路径

冷却液直接在靠近芯片的微通道中流动,热量从芯片到冷却液的距离被压缩,热阻明显降低。

强化对流换热

微米级的通道配合合理的流速设计,流体更容易形成湍流,从而提升换热效率。

结构一体化

将均热板、水冷板、封装盖板进行一体化设计,减少导热界面材料(TIM)和中间接触面,进一步降低热阻与装配复杂度。

长期运行下,微通道内部腐蚀是绕不过去的工程挑战。英伟达在设计中要求采用 镀金散热盖 等方案来提高耐腐蚀与可靠性,同时在镀层厚度与导热性能之间做了权衡,以减少对导热效率的影响 124。

在 CES 现场,黄仁勋特别强调 Rubin 平台支持使用 约 45℃ 的热水进行冷却,不再强依赖传统冷水机组,这背后是整套液冷系统能力的综合体现 146:

冷却液供回水温度窗口被整体抬高,相比传统数据中心冷却方案可以高出 10–15℃,对外部制冷设备的要求大幅降低。

液冷分配单元(CDU)在流量和控制精度上进行了升级,能够对多路冷却回路做精细调节。

在流道设计与材料选型上针对高温工况做了优化,以保证长期运行的可靠性。

英伟达在技术上也借鉴了业界已有经验,例如主动流量控制、分流式冷板等思路,用于不同芯片、不同模块的独立温控,实现“哪儿热得快,水就多流一点”的动态调节 24。

从 Blackwell 到 Rubin:液冷从“可选项”变成“前提”

Blackwell 架构(如 GB200)发布时,英伟达就已经开始大规模推动液冷部署,液冷渗透率从早期的试点阶段一路提高 1。但那一代的液冷方案仍然以传统冷板为主,存在几个现实问题:

在部分机柜功耗尚未完全“冲顶”的场景下,液冷占比有限,整体节能收益不够“惊艳”。

冷板方案往往要兼容既有的机柜与设备布局,客制化程度高,标准化与规模化存在掣肘。

Rubin 平台的思路则更加“激进”也更彻底:

把风冷从设计中拿掉

直接上 100% 全液冷架构,反过来倒逼机柜、电源、布线乃至数据中心基础设施的重新定义 14。

用微通道把散热效率推到极限

通过微通道冷板压缩热阻,减轻机柜级功耗密度对环境制冷的依赖。

弱化对冷水机组的刚性需求

借助高温供回水能力和更高 PUE 效率,把数据中心从传统冷水机房的束缚下部分“解放”出来 46。

机构测算显示,在类似 Rubin 这类高功率液冷架构下,数据中心 PUE(电源使用效率)有望从约 1.35 降至约 1.15 左右,额外的基础设施投入可以在两年多一点的时间内收回,经济账并不难算通。

产业链:从“跟着算力走”到“被架构倒逼升级”

液冷渗透率的快速提升,直接推着整个散热与基础设施产业链一起升级。过去两年,液冷在 AI 服务器中的占比一路走高,进入 Rubin 时代后,相关市场规模被普遍看好 4:

在 冷板与 CDU 环节,台系厂商以及内地散热/机房厂商相继扩产,部分企业已经打入 Rubin 配套供应链。

微通道冷板的加工与封装,对精密制造能力提出更高要求,也给 3D 打印、精密机械加工等领域打开了新空间。

冷却液与管路标准加速演进,从氟化液、矿物油等介质,到快接头、软硬管路的标准化,都在向“高可靠、高温工况、易维护”方向演化。

英伟达在这一轮中延续了“架构升级 + 深度绑定供应链”的路线:

一方面用微通道冷板、镀金盖板、高精度快接头等设计建立起技术门槛,筛选具备高端加工与验证能力的合作伙伴;另一方面通过与 CDU 厂商、快接头厂、整机/机柜集成商的深度合作,锁定关键节点,从而在液冷技术生态上占据主动权 149。

趋势展望:液冷之后,会走向哪里?

结合目前公开信息和行业动向,可以看到液冷技术大致有三条清晰的演进方向:

从“散热手段”走向“系统要素”

液冷不再被视作单纯的热管理选项,而是和芯片封装、架构设计、机柜布局共同定义一代平台。Rubin 将“芯片–冷板–管路–CDU”视作一个整体模块来做工程优化,这种一体化思路很可能成为后续高功耗 AI 算力平台的默认范式 28。

相变与新型冷却形式的试探

微流体、相变液冷等方向已在部分厂商的试验中展现潜力,理论上可以在更小空间内实现更高的换热能力。未来在 Rubin 之后的架构(无论是否名为 Ultra),不排除进一步引入相变冷却、浸没式液冷等方案,与机柜级液冷做组合。

与绿色数据中心、可再生能源的深度融合

当 PUE 被液冷技术进一步压低后,数据中心的整体能耗结构与选址逻辑也在发生变化:

更高的供水温度意味着可以更好地与区域供能系统、可再生能源发电相结合。

大型云服务商已经在规划 Rubin 时代的液冷数据中心与绿电协同部署,零碳 AI 成为现实目标之一 58。

从这个角度看,Vera Rubin 平台的意义已经超出了“又一代 AI 芯片”的范畴:

它把液冷从一个“选项”推成了高功耗 AI 计算的“默认前提”,同时通过对散热、封装、网络、供电的系统性重构,重新定义了下一代 AI 数据中心的技术边界。

随着 Rubin 平台在 2026 年进入规模部署,液冷产业链有望迎来新一轮扩张,而围绕英伟达生态的绑定与竞争,也会在“算力 + 散热 + 基础设施”这一整条链路上全面展开。