
2025 年 8 月 21 日,DeepSeek 宣布上线新一代大模型 DeepSeek-V3.1。该版本在模型架构、数值精度与国产算力适配上做了系统升级,并同步优化了 Agent 能力与 API 定价与生态策略。总体来看,V3.1 的推出意味着国内大模型正从“单点性能突破”迈向“技术与产业协同落地”的新阶段。
说明:以下内容为基于公开信息的整合与重述,已进行结构化改写与表述优化,避免复述性表述与潜在版权风险。
关键升级与技术要点
混合推理架构:V3.1 将“深度思考模式”与“快速响应模式”并入同一模型框架。
思考模式:强化复杂任务的多步推理能力。
非思考模式:精简计算路径,提升响应效率与成本可控性。
官方测试口径显示,“V3.1-Think”在输出 token 数减少约 20%–50% 的情况下,综合表现与 R1-0528 基本持平,且非思考模式具备更好的输出长度控制。
参数精度优化(UE8M0 FP8 Scale):
采用面向新一代国产芯片的 FP8 方案,在保持精度的前提下进一步压缩显存与内存占用,据称内存占用下降约 30%。
通过量化感知训练等技术,兼顾推理能效与模型精度,为国产芯片的原生 FP8 训练/推理铺路。
Agent 能力强化(Post-Training):
在代码修复(SWE)、终端复杂操作(Terminal-Bench)等任务上较此前代模型有明显提升。
在需要多步检索与推理的评测(如 browsecomp、HLE)中,官方表示相较 R1-0528 有大幅领先,被定位为“迈向 Agent 化的阶段性节点”。
生态与价格策略:
App 与网页端支持“一键切换深度思考/快速响应模式”。
API 定价(自 9 月 6 日起):输入端按缓存命中与否区分(命中 0.5 元/百万 tokens、未命中 4 元/百万 tokens),输出端统一 12 元/百万 tokens;取消夜间优惠。总体策略是在输出侧小幅上调、输入缓存成本保持不变,以技术优化摊薄整体使用成本。
国产芯片适配与产业协同
与主流国产算力的协同进展:
昇腾 910B 已完成 V3 适配,通过自研推理加速引擎在安防、工控等场景实现本地化高性能推理。
海光 DCU 完成 V3/R1 适配,宣称通信延迟下降与训练效率提升并行。
龙芯 3 号 CPU 设备实测可运行 R1 7B 模型,支持边缘/本地部署的轻量化方案。
多家厂商差异化路线:
沐曦曦云 C500 在 V3 推理上的性能与单位 token 成本具备竞争力;
天数智芯专注蒸馏模型的稳定推理;
壁仞覆盖 1.5B–70B 全量级蒸馏模型;
摩尔线程率先原生支持 FP8(MUSA 架构),为 V3.1 提供底层计算支持;
芯原 VIP9000 NPU 打通“云端 FP8 训练—端侧部署”的迁移路径。
政策与市场双轮驱动:
超算互联网平台将 DeepSeek 模型纳入标准算力库;
运营商在 5G 基站侧优先采用已适配国产芯片的推理模块。
能源与工业私有化部署:
中石油、中海油、国家管网等单位完成私有化部署;
中海油“海能”平台在全国产化算力上接入 DeepSeek 系列,为全集团提供统一服务;
结合海光 DCU 的低延迟与模型的实时推理,实现电网故障预测从“分钟级”向“秒级”收敛。
竞争力重构的三个维度
硬件门槛下探:
MoE 使激活参数更可控,配合 FP8 精度标准,推理能效有望进一步提升;
在 671B 参数规模下,部分国产 GPU 在单位算力成本与延迟上呈现优势;
龙芯在特定应用的功耗/性价比显示出本地化与行业化的潜力。
生态共建驱动应用落地:
昇腾云服务承载大量 910B 规模化部署,订单持续增长;
海光在金融等高并发场景的市占与调用量攀升;
龙芯与软件与集成商的协作推进教育等行业案例落地(智能答疑、个性化学习推荐等);
芯原与摩尔线程的配合,加速 FP8 技术从训练到推理的全链条打通,缩短开发周期。
差距缩短的可视化体现:
昇腾 910C 在推理性能与能效上逐步逼近国际高端产品;
国产 GPU 在单卡大模型推理能力上持续突破;
龙芯围绕关键场景优化,满足多样化行业需求,提升自主化率。
总结
从 V3.1 的混合推理架构到 FP8 适配,从 Agent 能力的跃升到生态价格策略的微调,DeepSeek 正在以“模型—芯片—场景”的闭环思路推动国产 AI 的规模化落地。若 UE8M0 FP8 等标准继续在产业链扩散,叠加多家芯片厂商的差异化路线与行业级私有化部署的成熟,中国 AI 产业在 2030 年前实现国际竞争力的实质跃升具备坚实的技术与生态基础。