
Grok3发布引发热议,DeepSeek与Kimi稀疏注意力技术成焦点
近日,xAI发布了全新一代大语言模型Grok3,被创始人埃隆·马斯克称为“地球上最聪明的AI”,引发全球关注。据悉,Grok3背后投入了20万块H100 GPU,算力规模是上一代Grok2的15倍以上,展现了xAI在AI研发上的巨大投入与野心。在多项基准测试中,Grok3表现优异,领先DeepSeek R1和o3 mini等竞争对手。然而,业内对Grok3的评价却不尽相同。
尽管Grok3的性能确实有所提升,但其算力投入与性能增长并未成正比。这一现象也让业界开始重新审视大模型的Scaling Laws(扩展规律),认为算力的边际效益递减可能已逐渐显现。与此同时,AI领域的另一趋势也在悄然兴起:通过创新技术提升算力利用效率,成为下一代大模型发展的重要方向。
就在Grok3发布的当天,DeepSeek团队发布了一篇论文,介绍了全新的稀疏注意力机制——Natively Sparse Attention(NSA),旨在提升长文本处理的效率和硬件利用率。同日,Kimi团队也推出了类似的稀疏注意力技术MoBA,两者均为大语言模型的长文本处理提供了新的解决方案。
DeepSeek的NSA:用更少的计算做更多的事
在大语言模型发展的初期,模型处理长文本的能力曾是重要的性能指标之一。然而,传统的全注意力机制在长文本处理上存在显著瓶颈:计算成本随文本长度呈指数级增长,导致高延迟、高能耗,甚至难以完成任务。例如,要处理一本十万字的书,全注意力机制需要计算每个词与其他所有词之间的关系,计算量极大。
为了解决这一问题,稀疏注意力机制应运而生。其核心思想是**“只关注最重要的部分”**,通过减少计算量来提升效率。然而,现有稀疏注意力机制存在两大问题:
理论上计算量减少,但推理速度提升有限;
在训练阶段效果不佳,多数稀疏机制仅适用于推理。
DeepSeek的NSA针对上述问题提出了解决方案,主要从文本处理策略和硬件优化两个方面入手:
文本处理:分层稀疏策略
粗粒度压缩:将长文本分成多个块(如每32个词为一块),通过机器学习模型提取每个块的摘要,减少计算量。
细粒度选择:动态筛选最关键的块(如通过注意力评分选出16个块),仅计算这些块的详细信息。
局部上下文保留:保留最近的512个词,确保模型捕捉到短期上下文关系。
这一过程可以类比为快速阅读一本书:粗略翻阅全书(粗粒度压缩),标记重要章节(细粒度选择),并结合关键段落的上下文来理解内容(局部上下文保留)。
硬件优化:充分利用GPU性能
分块内存访问:将数据按连续块加载到GPU内存中,减少随机访问开销。
共享键值缓存:在解码阶段,多个注意力头共享同一键值缓存,降低内存带宽需求。
稀疏性训练:在训练阶段直接引入稀疏性,确保模型学会有效利用稀疏结构,实现端到端训练。
NSA的实际效果
DeepSeek团队在实验中验证了NSA的性能:
在64k长度的文本处理中,NSA的推理速度比传统注意力快11.6倍,训练速度提升6-9倍(使用NVIDIA A100 GPU)。
在知识问答(MMLU)、代码生成(HumanEval)、长文本理解(LongBench)等任务中,NSA的性能与全注意力模型相当甚至更优。
通过与GPU内存架构(HBM→SRAM)的优化对齐,NSA首次实现了理论计算节省与实际加速的统一。它不仅显著提升了推理效率,还解决了稀疏注意力机制在训练阶段的应用难题,为低功耗、高效率的大模型部署奠定了技术基础。
Kimi的MoBA:结合专家混合的动态稀疏注意力
与DeepSeek的NSA类似,Kimi团队的MoBA(Mix of Blocks Attention)同样致力于解决长文本处理中的计算成本问题。然而,MoBA采用了不同的技术思路,借鉴了“专家混合”(Mixture of Experts, MoE)的理念。
MoBA的核心创新:动态选择机制
MoBA将文本分成多个块,通过一种动态“门控机制”决定每个查询需要关注哪些块。这种方式让模型可以根据任务需求灵活调整注意力范围,而不是依赖固定规则。
硬件优化与超长文本支持
MoBA结合了FlashAttention技术,进一步提升了计算效率。通过分布式计算解决了GPU内存限制问题,MoBA能够扩展至1000万词以上的超长序列处理,成为其显著优势之一。
行业趋势:从算力堆叠到效率优化
随着大模型规模的不断扩展,算力投入的边际效益递减已成趋势。Grok3的发布虽然再次刷新了大模型能力上限,但其巨大的算力投入与性能提升不成比例,引发了业界对大模型未来发展的深思。
相比之下,DeepSeek和Kimi等团队的创新技术表明,通过提升算力利用效率,或许能更有效推动大模型的应用普及。无论是NSA的分层稀疏策略,还是MoBA的动态选择机制,这些技术都展现了稀疏注意力在提升效率方面的潜力。
未来,随着AI应用场景的不断扩展,算力需求仍将持续增长。但仅依靠硬件堆叠已难以带来显著提升,如何通过技术创新提高算力利用率,将成为AI领域的关键突破方向。