DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

2025-2-21 10:02:00

DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

Grok3发布引发热议，DeepSeek与Kimi稀疏注意力技术成焦点

近日，xAI发布了全新一代大语言模型Grok3，被创始人埃隆·马斯克称为“地球上最聪明的AI”，引发全球关注。据悉，Grok3背后投入了20万块H100 GPU，算力规模是上一代Grok2的15倍以上，展现了xAI在AI研发上的巨大投入与野心。在多项基准测试中，Grok3表现优异，领先DeepSeek R1和o3 mini等竞争对手。然而，业内对Grok3的评价却不尽相同。

尽管Grok3的性能确实有所提升，但其算力投入与性能增长并未成正比。这一现象也让业界开始重新审视大模型的Scaling Laws（扩展规律），认为算力的边际效益递减可能已逐渐显现。与此同时，AI领域的另一趋势也在悄然兴起：通过创新技术提升算力利用效率，成为下一代大模型发展的重要方向。

就在Grok3发布的当天，DeepSeek团队发布了一篇论文，介绍了全新的稀疏注意力机制——Natively Sparse Attention（NSA），旨在提升长文本处理的效率和硬件利用率。同日，Kimi团队也推出了类似的稀疏注意力技术MoBA，两者均为大语言模型的长文本处理提供了新的解决方案。

DeepSeek的NSA：用更少的计算做更多的事

在大语言模型发展的初期，模型处理长文本的能力曾是重要的性能指标之一。然而，传统的全注意力机制在长文本处理上存在显著瓶颈：计算成本随文本长度呈指数级增长，导致高延迟、高能耗，甚至难以完成任务。例如，要处理一本十万字的书，全注意力机制需要计算每个词与其他所有词之间的关系，计算量极大。

为了解决这一问题，稀疏注意力机制应运而生。其核心思想是**“只关注最重要的部分”**，通过减少计算量来提升效率。然而，现有稀疏注意力机制存在两大问题：

理论上计算量减少，但推理速度提升有限；

在训练阶段效果不佳，多数稀疏机制仅适用于推理。

DeepSeek的NSA针对上述问题提出了解决方案，主要从文本处理策略和硬件优化两个方面入手：

文本处理：分层稀疏策略

粗粒度压缩：将长文本分成多个块（如每32个词为一块），通过机器学习模型提取每个块的摘要，减少计算量。

细粒度选择：动态筛选最关键的块（如通过注意力评分选出16个块），仅计算这些块的详细信息。

局部上下文保留：保留最近的512个词，确保模型捕捉到短期上下文关系。

这一过程可以类比为快速阅读一本书：粗略翻阅全书（粗粒度压缩），标记重要章节（细粒度选择），并结合关键段落的上下文来理解内容（局部上下文保留）。

硬件优化：充分利用GPU性能

分块内存访问：将数据按连续块加载到GPU内存中，减少随机访问开销。

共享键值缓存：在解码阶段，多个注意力头共享同一键值缓存，降低内存带宽需求。

稀疏性训练：在训练阶段直接引入稀疏性，确保模型学会有效利用稀疏结构，实现端到端训练。

NSA的实际效果

DeepSeek团队在实验中验证了NSA的性能：

在64k长度的文本处理中，NSA的推理速度比传统注意力快11.6倍，训练速度提升6-9倍（使用NVIDIA A100 GPU）。

在知识问答（MMLU）、代码生成（HumanEval）、长文本理解（LongBench）等任务中，NSA的性能与全注意力模型相当甚至更优。

通过与GPU内存架构（HBM→SRAM）的优化对齐，NSA首次实现了理论计算节省与实际加速的统一。它不仅显著提升了推理效率，还解决了稀疏注意力机制在训练阶段的应用难题，为低功耗、高效率的大模型部署奠定了技术基础。

Kimi的MoBA：结合专家混合的动态稀疏注意力

与DeepSeek的NSA类似，Kimi团队的MoBA（Mix of Blocks Attention）同样致力于解决长文本处理中的计算成本问题。然而，MoBA采用了不同的技术思路，借鉴了“专家混合”（Mixture of Experts, MoE）的理念。

MoBA的核心创新：动态选择机制

MoBA将文本分成多个块，通过一种动态“门控机制”决定每个查询需要关注哪些块。这种方式让模型可以根据任务需求灵活调整注意力范围，而不是依赖固定规则。

硬件优化与超长文本支持

MoBA结合了FlashAttention技术，进一步提升了计算效率。通过分布式计算解决了GPU内存限制问题，MoBA能够扩展至1000万词以上的超长序列处理，成为其显著优势之一。

行业趋势：从算力堆叠到效率优化

随着大模型规模的不断扩展，算力投入的边际效益递减已成趋势。Grok3的发布虽然再次刷新了大模型能力上限，但其巨大的算力投入与性能提升不成比例，引发了业界对大模型未来发展的深思。

相比之下，DeepSeek和Kimi等团队的创新技术表明，通过提升算力利用效率，或许能更有效推动大模型的应用普及。无论是NSA的分层稀疏策略，还是MoBA的动态选择机制，这些技术都展现了稀疏注意力在提升效率方面的潜力。

未来，随着AI应用场景的不断扩展，算力需求仍将持续增长。但仅依靠硬件堆叠已难以带来显著提升，如何通过技术创新提高算力利用率，将成为AI领域的关键突破方向。

DeepSeek最新论文：训练速度提升9倍，推理速度快11倍！

企业新闻

行业新闻