ScatterAI
Issue #2 · 2026年3月12日

无监督 RLVR 触碰天花板:由初始分布决定,而非算力

Research

背景

RLVR(具有可验证奖励的强化学习)被誉为提高模型推理能力的下一个前沿。与标准 RL 不同,RLVR 依赖于奖励客观的环境(如代码通过测试或数学题正确)。然而,研究人员注意到,在 RLVR 上投入更多算力并不总是能得到更好的模型,这促使人们寻找其背后的缩放法则(Scaling Laws)。

他们发现了什么

研究表明,无监督 RLVR 的性能天花板是由初始模型分布的“多样性底线”决定的。一旦模型在其起始熵内探索了大部分可触及的高奖励状态,增加更多的训练迭代或算力就会导致“模型崩塌”(Model Collapse)——模型生成退化、重复的输出,虽然满足了奖励但失去了通用智能。

如何运作

团队通过追踪演化模型与基础版本之间的 KL 散度,描绘了“模型崩塌边界”。他们发现,一旦模型漂移超过临界阈值,可验证奖励的增加与不可验证推理任务的性能就会呈现负相关。这个“天花板”实际上是纯自博弈在没有外部数据注入的情况下,能从模型潜空间中提取的最大知识量。

为什么重要

这为“自我修正”的热潮提供了一个关键的现实检查。它表明,虽然 RLVR 在提取潜在能力方面非常强大,但它无法凭空创造新知识。对于 AI 实验室来说,这意味着重点必须回到预训练期间的高质量数据多样性上,因为预训练分布决定了 RLVR 能将模型性能推向多远的硬性上限。