
真武810E亮相:阿里“通云哥”全栈AI真正落地
在国产算力竞争最激烈的这两年里,阿里终于亮出了那张“藏了一年多的底牌”。
去年9月,一张出现在央视《新闻联播》背景画面里的参数表,让一颗未公开的阿里平头哥AI芯片——PPU(Parallel Processing Unit)提前曝光:96GB HBM2e显存、700GB/s片间带宽、PCIe 5.0 x16、400W功耗……直到今年1月29日,这颗芯片在平头哥半导体官网以“真武810E”的正式产品名登场,阿里自研GPGPU路线的阶段性成果算是真正浮出水面。
更重要的是,围绕这颗芯片,阿里多年铺垫的“通义实验室 + 阿里云 + 平头哥”的AI全栈布局,也第一次以清晰的业务形态呈现出来——业内戏称的“通云哥”黄金三角,终于凑齐了算力芯片、云平台和大模型这三块关键拼图。
GPGPU路线的真武810E:对标A100的国产PPU
从公开参数看,真武810E走的是GPGPU技术路线,而不是华为昇腾、寒武纪现阶段采用的ASIC方案,这也是它早期被内部称为“PPU”的原因之一。
根据平头哥官网及此前央视画面披露的信息,真武810E的核心硬件指标包括:
96GB HBM2e显存
片间互联带宽 700 GB/s
Host总线:PCIe 5.0 x16
单卡功耗约 400W
支持AI训练、AI推理和自动驾驶等场景
对比同为国产高端算力卡的几款产品:
华为昇腾 910B:64GB HBM2,392 GB/s片间带宽,PCIe 4.0 x16,350W
壁仞 BR104P:32GB HBM2e,256 GB/s片间带宽,PCIe 5.0 x16,300W
在外围硬件规格上,真武810E的显存容量、带宽和总线代际整体处于更高档位。有外媒甚至报道称,升级版本的“真武”芯片在实际性能上已经可以超越英伟达A100,这一点从其已在阿里云内部大规模承担大模型训练任务、并落地多个万卡集群的节奏来看,也并非完全没有依据。
自研ICN互联与软件栈:为大模型而生的系统工程
真武810E并不仅仅是一张规格堆料的算力卡,它背后更关键的是阿里这几年在系统层面做的“长线活儿”。
1. ICN片间互联:为万卡集群准备的底层网络
平头哥为真武810E自研了一套ICN(Inter-Chip-Network)片间互联技术,每颗芯片配备7个ICN端口,主打的就是:
高带宽
低延迟
面向大规模集群的横向扩展能力
结合自研的互联加速库,真武810E可以高效组建多卡协同集群,解决大模型训练中最头疼的通信瓶颈问题,追求的是“线性加速比”,也就是卡数翻倍,训练速度尽量接近翻倍。
2. 全栈自研软件栈:软硬一体、兼容主流生态
在软件层,平头哥做的是一整套具备自主知识产权的AI产品软件栈:
统一编程接口,端到端支持业务落地和扩展
沿用当前主流编程环境,开发者可直接调用统一API
向上兼容主流AI生态:主流框架、算子库、操作系统等
向下针对自研硬件做极致优化
业内人士透露,真武 PPU 的一大特点是对 CUDA 兼容度非常高。这意味着在现有英伟达生态下开发的很多应用,可以较低成本迁移到真武平台上运行,这一点对于想要控制成本、又不愿意从头重构应用的企业用户而言,意义非常现实。
训推一体:从大模型训练到大规模推理
真武810E被定义为“AI训推一体芯片”,用一句话概括,就是既要能顶住大模型训练的重负,也要能扛起海量在线推理的吞吐。
1. 训练侧:面向大模型集群的系统优化
在训练侧,真武810E:
原生支持多种主流深度学习框架
依托ICN片间互联和自研软件栈,缓解大规模训练的通信瓶颈
在多卡、多节点场景下追求更高集群线性加速比
提供编译器和多种开源加速库,挖掘软硬件性能
对于企业而言,这意味着在阿里云上训练千亿参数级别的大模型,不再完全受制于海外GPU供应和成本波动,可以有更多国产化的算力选择。
2. 推理侧:高性价比的大模型在线服务
在推理侧,真武810E:
原生支持主流推理引擎
提供平头哥自研推理框架和算子库
利用大容量显存在大模型推理场景中做针对性优化
支持CPU与GPU灵活配比和弹性伸缩,面向云上按需伸缩的推理服务
对于需要大规模部署问答、搜索增强、Agent、多模态创作等业务的企业客户来说,这类高性价比的国产训推一体平台,直接关系到长期的服务成本和算力自主可控程度。
多模态与自动驾驶:从通用算力走向行业深水区
真武810E的应用,并没有停留在“跑通大模型”这一层,而是明显在往行业深水区延伸。
1. 多模态生成:视频、图文一体优化
依托硬件级视频编解码能力,真武810E在以下场景的训练和推理中已经有实测数据支撑:
文生视频
图文生视频
图文生文
在多模态大模型越来越多落地到实际产品中的趋势下,能同时兼顾图像、视频和文本推理性能的算力平台,会逐渐成为内容平台、短视频平台及AIGC应用方的重要底座选项。
2. 自动驾驶:兼容50+主流智驾模型
自动驾驶是平头哥重点强调的一个方向。官方信息显示:
真武810E已验证兼容超过50个自动驾驶常用模型
覆盖感知、预测、端到端等多种架构
可为车企和方案商提供从训练到云端推理的一体化算力服务
目前,基于真武810E的多个万卡级集群已经在阿里云上线,为包括头部车企和自动驾驶公司在内的客户提供训练算力,自动驾驶模型的迭代效率和成本,正在被这类国产算力平台重新塑造。
万卡集群落地:从样片到生产级算力基础设施
一颗芯片值不值得行业重视,往往不看发布会,而看它实际能不能在大规模生产环境里“扛得住”。
从目前披露的信息看,真武810E已经完成了从内部验证到外部大规模商用的关键跃迁:
阿里云上已部署多个万卡级真武集群
国内首个国产化万卡智算集群(联通·阿里云项目)已落地青海
规划总规模约16000卡,全部采用自主研发技术和设备
服务客户超过400家,包括国家电网、中科院、小鹏汽车、新浪微博等
同时,阿里内部也已经将真武 PPU 大规模用于千问大模型的训练与推理,并与自家的AI软件栈深度联动,在真实业务流量和复杂场景中持续打磨。
从“先在自己家里用到爽,再对外开放服务”的节奏来看,真武810E已经不再只是实验室项目,而是一块真正进入生产体系的国产GPGPU。
8年芯片 + 7年大模型:阿里全栈AI的时间线
真武810E的出现,并非临时起意,而是阿里在芯片和大模型方向长期投入的一个阶段性节点。
简单拉一条时间线:
2009年:阿里云成立,开始自建云基础设施
2018年:收购中天微,成立平头哥半导体
2019年:平头哥发布首颗数据中心AI推理芯片“含光800”
12nm工艺,集成约170亿晶体管
峰值算力820 TOPS
ResNet-50测试中推理性能达 78,563 IPS,能效比 500 IPS/W
2021年:发布倚天710服务器CPU,采用Arm架构,128核,主频2.75GHz
2019年至今:启动并持续推进大模型研究
2024年以来:通义千问多款模型开源,在 Hugging Face 衍生模型突破20万,下载量超10亿次,位居全球第一梯队
2026年前后:真武810E大规模部署,“通云哥”全栈AI架构对外清晰呈现
在模型侧,通义实验室近期发布的千问旗舰推理模型 Qwen3-Max-Thinking,在多项权威榜单上取得领先,能力已经可以正面对标海外顶级闭源模型。从芯片、云,到大模型,再到行业解决方案,阿里走的是一条“从底层到应用”的垂直整合路径。
小结:通云哥的下一步,是AI超级计算机
从真武810E这颗芯片往回看,可以看到阿里这条全栈AI路线的大致轮廓:
平头哥真武810E:提供自研GPGPU算力和互联技术
阿里云:提供大规模智算基础设施和云上服务形态
通义千问:提供大模型能力及开源生态
三者之间:通过统一的软件栈和系统架构,做深度协同与性能优化
在全球算力紧张、供应链不确定性加剧的大背景下,真武810E这种可规模部署、兼容主流生态的国产训推一体芯片,对于国内AI产业的意义,已经远不只是“又多了一块国产卡”这么简单。
可以预见的是,围绕“通云哥”这条全栈AI路线,阿里接下来会继续在以下几条线上发力:
构建更大规模、更高效率的AI算力集群,向“AI超级计算机”形态演进
深入金融、制造、能源、自动驾驶、互联网内容等行业场景
继续扩大千问开源生态,让更多开发者、创业公司、传统企业基于这套国产全栈能力搭建自己的AI应用
真武810E的正式公开,更像是阿里多年布局的一次集中“交卷”。真正的竞争,才刚刚开始。

