Meta的Llama 4发布引发能力整合争论

3. Meta的Llama 4发布引发能力整合争论

Meta于3月11日在Llama社区许可协议下发布了Llama 4 Scout和Llama 4 Maverick。Scout是一个17B激活参数模型（总计109B，MoE架构），上下文窗口达1000万词元。Maverick是一个针对多模态推理优化的17B激活参数模型。两者在标准基准上都显著优于Llama 3.1 70B，Maverick在MMLU上与GPT-4o持平，Scout在开源权重模型中创造了新的上下文长度记录。

竞争动态同时向两个方向转变。对于封闭模型供应商，每次Llama发布都压缩了前沿封闭性能与开源权重能力之间的窗口。2023年支撑GPT-4定价的差距已收窄至大多数企业采购对话中需要主动证明合理性的程度。对于开源权重生态系统——Mistral、Qwen、DeepSeek——资源充裕的Meta发布既是验证（开放方法有效）也是重置上限（需要回应）。

Scout中的MoE架构决策在技术上最有趣。总计109B/激活17B的专家混合并非新方法——Mixtral在2023年开创了它——但据报道Meta的实现通过使用惩罚专家崩溃的新路由损失函数实现了比先前MoE模型更好的专家利用率。如果第三方复现证实了这一点，这将是一个重要的训练方法贡献，而不仅仅是规模故事。

这与云提供商正在进行的推理基础设施建设相关联。1000万词元上下文窗口创造了新的基础设施要求：该规模的KV缓存以TB而非GB计算。AWS、Azure和GCP都在发布后24小时内宣布了Llama 4托管，但1000万词元上下文推理的实际成本结构不透明。预计会有定价惊喜。

模式已经确立。Meta发布前沿开源权重模型。封闭模型供应商在30天内降价。开源权重生态系统在60天内发布后续变体。这个循环将AI能力定价压向零，同时推动基础设施复杂性上升。

为何重要：

封闭模型API供应商面临新的定价压力：Scout以开源权重成本结构提供的1000万词元上下文窗口，削弱了Gemini 1.5 Pro和Claude一直保持的长上下文溢价
开源微调生态系统获得重大能力提升——Llama 4的MoE架构需要新的高效微调工具，Hugging Face和Axolotl社区将不得不构建
评估AI供应商锁定的企业现在对大多数工作负载有了可信的开源替代方案；“供应商提价怎么办”的风险场景变得更加可控

信源：Meta Llama 4发布（Meta AI博客），Llama 4基准分析（Hugging Face），云提供商托管公告（TechCrunch）