
标题:华为与银联共推UCM推理记忆管理:降低HBM依赖,长序列推理与首Token时延显著改善
导语
在“2025金融AI推理应用落地与发展论坛”上,华为公司副总裁、数据存储产品线总裁周越峰宣布,与中国银联联合完成一项面向大模型推理的关键创新:UCM(推理记忆数据管理器)及其配套算法体系。这一方案以KV Cache为核心进行记忆分层与调度,在HBM资源受限的条件下显著提升推理效率与体验,并计划于2025年9月在魔擎社区开源,向采用Share Everything(共享架构)的存储厂商与生态伙伴开放。
一、推理侧的真实压力:窗口不够大、首Token太慢、整体成本偏高
需求曲线陡峭上升。ChatGPT访问量线性增长至约4亿,DeepSeek走红进一步推高国内调用频度。自2025年1月起,中国AI推理请求量激增,峰值扩大约20倍。IDC预测,到2027年中国侧推理将占算力工作负载约72.6%(较2024年“训练60%/推理40%”显著倾斜)。
三大痛点清晰可见。长文本场景激增导致上下文受限的模型“推不动”;中美基础设施差距叠加,使国内大模型首Token时延普遍为海外头部的一倍以上;吞吐率偏低,导致“推得贵”,单位Token成本难以下探。
Token成为新量纲。周越峰指出,AI时代的体验与效率都可用Token度量,“Token经济”已成共识:首Token时延、TPS与单位Token成本共同决定用户端体验与供给侧成本结构。
二、UCM的定位:围绕KV Cache打造“记忆分层+算法协同”的推理加速套件
UCM由三大组件构成:
Connector:面向多种推理引擎与异构算力的适配插件;
Accelerator:承载多级KV Cache管理与加速算法的功能库;
Adapter:高性能KV Cache存取的I/O适配层。
通过推理框架、算力与存储三层联动,UCM将“更优体验/更低成本”的目标落到工程化路径上。
核心机制是“冷热分明、按需流动”的记忆管理:
实时高热数据留在HBM;
短期记忆下沉至DRAM;
历史/低热上下文卸载至外部共享存储SSD。
在此基础上,UCM叠加多种稀疏注意力与检索加速策略,形成“存算协同”的一揽子优化方案。
三、两大关键能力:多级缓存框架与动态稀疏算法的组合拳
框架与机制层
提供多级缓存空间与智能流动策略,支撑超长序列的分层卸载与回迁;
引入自适应全局Prefix Cache,重点优化首Token路径,降低首Token时延并摊薄单位Token成本;
结合后缀检索、预测加速、PD检索加速与Agent原生记忆加速等特性,进一步提升端到端时延与吞吐。
算法与协同层
动态Training稀疏加速:在长序列场景下,通过稀疏注意力与计算重用显著提升TPS;
存算深度协同:依据记忆热度与访问模式在HBM/DRAM/SSD间动态迁移,最大化带宽利用与缓存命中。
由此带来的量化收益(来自银联实测与大量测试):
首Token时延最高可降低约90%;
系统吞吐率最高可提升至22倍;
上下文推理窗口可扩展10倍以上;
在银联“客户之声”业务中,端到端推理速度最高提升至125倍,约10秒完成客户高频问题的精准识别。
四、为何“弱化HBM依赖”至关重要
HBM在AI芯片中的角色:HBM3单堆栈带宽可达约819 GB/s,是支撑LLM训练/推理的关键内存技术;
现实制约:自2024年末起,HBM2E对华供给受限,国产替代仍在推进;
UCM的意义:通过分级Cache与算法侧“降本增效”,在HBM瓶颈下维持甚至提升推理体验,兼顾可用性与性价比,为国内AI推理生态提供工程化可行路径。
五、场景化落地:从金融客服到办公协同
UCM已在中国银联三大业务中进行试点:
“客户之声”:面向客户反馈的快速洞察与问题归因;
“营销策划”:面向活动创意、目标人群与素材生成的推理加速;
“办公助手”:支持文档处理、问答与流程辅助的高并发推理。
试点显示,UCM在真实业务负载与复杂语料环境下,仍能保持显著的时延改善与吞吐提升。
六、产业观察:KV Cache成优化焦点,基础设施与调度同等重要
中国信通院曹峰指出,国产推理生态需要加速完善。随着上下文窗口不断扩展,KV Cache成为系统级优化的枢纽,高性能存储与先进调度策略的重要性愈发凸显。
华为AI存储首席架构师李国杰强调,AI技术迭代以半年为周期,UCM不会止步于KV Cache分层管理,将面向Agentic AI的原生记忆管理与应用加速延伸,支撑下一阶段的多Agent协同与长程任务记忆。
七、开源与生态:魔擎社区首发,面向共享架构伙伴开放
华为计划在2025年9月正式开源UCM,于魔擎社区首发,并向采用Share Everything(共享架构)的存储厂商与生态伙伴共享。伴随开源推进、标准化接口与参考实现的完善,UCM有望成为国内长序列推理与低时延交互的行业级“底座能力”。
结语
在推理需求暴增、成本压力与供应链约束并存的背景下,UCM以“记忆分层+稀疏算法+存算协同”的工程化路线,有效缓解HBM不足带来的性能退化,显著缩短首Token时延,并将长序列场景的吞吐拉升至可用、好用的阈值之上。随着在金融等高价值业务中的验证与即将到来的开源,UCM为国产AI推理生态提供了一个兼顾性能与成本的清晰范式。