
谷歌TPU v7登场,重构AI算力新版图
近年来,算力正成为企业在人工智能领域核心竞争力的关键所在。全球科技巨头谷歌不仅在AI算法和大模型上持续探索突破,还凭借自研的张量处理单元(TPU)打造出完整的AI算力基础设施,为行业未来发展定下了新标杆。
2024年11月,谷歌对外宣布新一代TPU——TPU v7(Ironwood)即将全面上市,并首次支持用户在自有数据中心部署该芯片。这一政策的公布,被外界解读为谷歌在AI算力市场直面英伟达的重要信号,消息公布后,谷歌母公司股价迅速走高,远超同期英伟达的涨幅。
谷歌TPU v7性能解读
TPU(Tensor Processing Unit)是谷歌自2015年推出的人工智能专用芯片。不同于通用性的GPU,TPU以AI运算的核心场景——矩阵乘法、卷积、激活函数等为优化重点,将芯片资源向深度学习高度集中。
2025年的Hot Chips大会上,谷歌详细披露了TPU v7的技术参数:单颗芯片性能达到4614 TFLOPS(FP8精度),集群最大可扩展至9216颗芯片,是TPU v4的两倍。内存方面,每个芯片配置了192GB HBM3e高带宽存储,总带宽约7.4 TB/s。在谷歌自研Jupiter数据中心的支撑下,数十万颗TPU的高效互联成为可能。
最值得注意的是,TPU v7在能效上的显著提升。相较于上一代Trillium架构,单位功耗性能提升翻倍,为大规模推理环节带来更高的经济效益。
与英伟达GPU的正面交锋
长久以来,英伟达凭借成熟的CUDA开发生态和强悍的GPU平台,在AI芯片市场处于绝对优势。TPU v7发布后,引发业内大量对比。例如,英伟达B200 GPU同样配备了192GB HBM3e(带宽8TB/s),峰值算力达到4500 TFLOPS(FP8),两者在核心参数上颇为接近。
值得一提的是,两家公司在芯片互连方案上各具优势:英伟达通过NVLink与Grace CPU、Blackwell GPU深度绑定,谷歌则借助自研ICI协议,将成千上万TPU高效组网,单POD带宽高达9.6Tb/s,满足超大模型高并发实时通信需要。
面对竞争压力,英伟达也在公开场合对谷歌表达认可,强调自家平台全面兼容主流AI模型和多种场景,但TPU的最新进展无疑撼动了这一格局。
ASIC定制化风起,AI算力从自用到外供
专为AI优化的ASIC芯片近年来在科技巨头间加速普及,如马斯克团队近期亦布局自研。与英伟达A100、H100等高端GPU相比,谷歌TPU以更低成本提供可比性能,机构测算其取得同等算力时成本可控制在GPU的五分之一。这一点对于需要大规模训练推理的大模型客户极具吸引力。
公开信息显示,谷歌今年与AI企业Anthropic签订了数百亿美元订单,后者选择采购多达100万颗TPU芯片,用于大模型研发。这标志着谷歌TPU正式打入商业AI服务市场,不再仅为自身产品提供算力保障。各券商预测,到2026年TPU芯片出货量或将突破400万颗。
在AI基础设施不断壮大的背景下,谷歌还推出了全新Gemini 3大模型及其迭代版本,融合多模态感知与推理能力。该模型正是在Ironwood大集群上完成训练和部署,目前已赋能谷歌多条AI产品线,比如Gemini App、NotebookLM等,技术落地和商业回报实现紧密联动。
“电算+光连”——AI数据中心的基础革命
TPU v7 Ironwood能支撑Gemini 3等先进大模型的关键,在于其后端的系统性创新:大规模集群通过光电混合交换(OCS)实现3D Torus网络拓扑,单集群覆盖9216颗芯片,互联系统带宽高达9.6Tb/s,极大降低了数据延迟与能耗。
目前,谷歌的数据中心还有96根光纤、48台OCS设备打通芯片间通信,重大升级还包括实时热插拔与零宕机拓展能力。OCS方案下,数据完成时间显著缩短,网络宕机风险和能耗大幅下降,且可根据实际需求平滑扩展集群规模,资本开支总成本降低约30%。
随着OCS技术的规模商用,整个光模块及其相关产业链也随之迎来新增长动力。中际旭创、光库科技等企业成为谷歌OCS光模块主要供应商,国内外多家公司快速布局硅光模块、光通信设备,为AI信息高速公路提供“硬件引擎”。
结语
谷歌TPU v7及配套系统的发布,不仅提升了自身在AI算力领域的话语权,也推动了GPU与ASIC定制芯片间的差异化竞争。强悍的性能、极致的能效与经济性、高度可扩展的光电架构,让TPU在大模型时代展现出前所未有的生命力。AI芯片市场的格局,正在迎来新的变量,而TPU、GPU,以及围绕“电算+光连”展开的创新,无疑将成为决定下一阶段AI产业走向的支点。

