无监督 RLVR 触碰天花板：由初始分布决定，而非算力

背景

RLVR（具有可验证奖励的强化学习）被誉为提高模型推理能力的下一个前沿。与标准 RL 不同，RLVR 依赖于奖励客观的环境（如代码通过测试或数学题正确）。然而，研究人员注意到，在 RLVR 上投入更多算力并不总是能得到更好的模型，这促使人们寻找其背后的缩放法则（Scaling Laws）。

研究表明，无监督 RLVR 的性能天花板是由初始模型分布的“多样性底线”决定的。一旦模型在其起始熵内探索了大部分可触及的高奖励状态，增加更多的训练迭代或算力就会导致“模型崩塌”（Model Collapse）——模型生成退化、重复的输出，虽然满足了奖励但失去了通用智能。

团队通过追踪演化模型与基础版本之间的 KL 散度，描绘了“模型崩塌边界”。他们发现，一旦模型漂移超过临界阈值，可验证奖励的增加与不可验证推理任务的性能就会呈现负相关。这个“天花板”实际上是纯自博弈在没有外部数据注入的情况下，能从模型潜空间中提取的最大知识量。

这为“自我修正”的热潮提供了一个关键的现实检查。它表明，虽然 RLVR 在提取潜在能力方面非常强大，但它无法凭空创造新知识。对于 AI 实验室来说，这意味着重点必须回到预训练期间的高质量数据多样性上，因为预训练分布决定了 RLVR 能将模型性能推向多远的硬性上限。