
谷歌云推出第七代TPU“Ironwood”,引领AI芯片新一轮性能革命
近日,谷歌云在官方博客上正式发布了自主研发的第七代张量处理单元(TPU)——“Ironwood”,并计划在未来数周内正式向市场推出。作为连通谷歌自2013年起聚焦AI芯片开发路线的又一里程碑,“Ironwood”无论在算力、能效还是集群扩展性上,均实现了大幅跃升。
谷歌方面表示,Ironwood TPU针对大模型训练、推理、高强度强化学习(RL)及实时AI系统等多元场景量身定制,能够应对当前AI规模化与实时化趋势下最为苛刻的工作负载。性能方面,新一代TPU的峰值整体表现较TPU v5p提升多达10倍;与此前的TPU v6e(Trillium)相比,无论在训练还是推理环境下,单芯片性能均实现超过4倍的跃升。这也令“Ironwood”成为谷歌迄今为止功能最为强大、能效表现最优的AI芯片产品。
Ironwood还在集群能力上带来突破式增长,单集群可并联多达9,216颗芯片,显著降低大模型训练过程中的数据瓶颈,大幅提升实际工程部署中的拓展性。如此密集的互联能力,使其能够轻松承载业界当前最大、最为复杂的AI模型运行和扩展需求。
TPU发展简史及技术特色
谷歌TPU自问世以来,始终代表着AI加速硬件的前沿。最初,TPU因谷歌自研的TensorFlow框架矩阵计算需求而生,采用脉动阵列结构与低精度计算方案,实现高效率深度学习加速。其推理性能对比同代CPU、GPU拥有15-30倍的速度提升,能效表现亦高出传统架构30-80倍。2016年,TPU首次于AlphaGo项目中登场,引起全球关注。
2024年5月,谷歌发布第六代Trillium TPU,采用3D堆叠封装及液冷系统,单片峰值性能为TPUv5e的4.7倍,能效提升67%,单颗芯片内存达32GB,网络互联带宽高达3200Gbps。单一Pod集群亦支持多达256颗芯片协同计算,已于当年年底通过谷歌云平台商用。
值得一提的是,谷歌还同步公布了“Project Suncatcher”太空计算计划,计划借助Trillium TPU构建在轨AI计算卫星系统,预计2027年完成原型发射,远期将形成超过1GW(千兆瓦)的太空算力网络。
生态与客户应用加速拓展
谷歌TPU的持续进化,已吸引一批世界级AI企业的合作。2024年10月23日,AI公司Anthropic宣布与谷歌合作,将部署多达100万颗TPU芯片,专注提升旗下Claude大模型训练规模。这一合作价值高达数百亿美元,预计2026年将释放1GW级的大模型训练能力。谷歌云首席执行官Thomas Kurian强调,Anthropic之所以大规模上马TPU方案,正是因其在AI模型训练场景下展现出的优异效率与成本优势。
当前,Salesforce、Safe Superintelligence、Midjourney等头部创新企业也已在云端广泛部署TPU算力,进一步丰富了谷歌AI基础设施生态。
行业格局与市场较量
值得关注的是,尽管TPU技术不断突破,但在AI芯片市场上,英伟达GPU依然占据主导地位。谷歌方面多次指出,TPU面向定制化大模型训练任务拥有显著性价比,但为兼容客户多样化需求,谷歌依旧是英伟达最大的GPU采购方之一。相较TPU的深度优化,GPU则以更强的算法与模型适应性满足用户灵活扩展的需要。
分析认为,随着GenAI时代加速到来,算力基础设施已成为大型科技公司核心竞争力之一。谷歌借助TPU实现芯片自供、架构自主,有助于形成差异化AI算力资源;而其与英伟达并行布局,也为客户带来更多选择空间。可以预见,技术与生态的双轮驱动下,AI芯片市场的竞争与分化将进一步加剧,拥有自研算力平台的企业或将在新一轮AI浪潮中持续占据先机。

