ScatterAI
Issue #6 · 2026年3月19日

NanoGPT研究人员实现10倍数据效率提升,挑战'更多数据'扩展正统观念

Industry

7. NanoGPT研究人员实现10倍数据效率提升,挑战”更多数据”扩展正统观念

一项在Hacker News上以”NanoGPT Slowrun”为题流传的研究结果声称,在无限算力假设下实现了10倍数据效率提升,即在放宽算力限制的情况下,只需十分之一的训练token即可达到相同的模型质量。该研究基于Andrej Karpathy的NanoGPT代码库构建——这是一个精简、可复现的GPT实现,已成为训练效率实验的标准测试平台。截至发布时,该结果在Hacker News上获得33个赞,目前仍属早期社区信号而非经同行评审的共识,但其效率声明的具体性值得密切关注。

如果该发现经得起审视,将直接冲击那些塑造了前沿AI技术栈资本配置格局的扩展假设。OpenAI、Google DeepMind、Meta AI和Anthropic均已围绕Chinchilla式理论构建其基础设施布局,该理论主张数据与算力须以大致固定的比例协同扩展。在高算力场景下实现10倍数据效率提升,将有利于算力资源最为充沛的参与者,尤其是Google和Microsoft等超大规模云服务商,同时削弱数据丰富但算力受限的竞争对手的地位。这也将降低大型专有数据集的战略护城河价值——Apple和一些规模较小的微调初创公司一直在悄然依赖这一优势。

这与一条更宏观的研究脉络相呼应——研究界正在质疑token数量究竟是否是语言模型训练的核心制约因素。关于数据质量过滤的研究、Mistral等公司在合成数据生成方面的探索,以及课程学习方向的进展,均指向同一结论:这一领域正在积极重新评估”一个训练token”的价值。一旦10倍效率提升结果得到确认,将加速这一重新评估进程,并对过去三年来主导预训练经济格局的原始数据获取策略——包括网络爬取和授权协议——形成新的压力。

来源:https://qlabs.sh/10x