NanoGPT研究人员实现10倍数据效率提升，挑战'更多数据'扩展正统观念

7. NanoGPT研究人员实现10倍数据效率提升，挑战”更多数据”扩展正统观念

一项在Hacker News上以”NanoGPT Slowrun”为题流传的研究结果声称，在无限算力假设下实现了10倍数据效率提升，即在放宽算力限制的情况下，只需十分之一的训练token即可达到相同的模型质量。该研究基于Andrej Karpathy的NanoGPT代码库构建——这是一个精简、可复现的GPT实现，已成为训练效率实验的标准测试平台。截至发布时，该结果在Hacker News上获得33个赞，目前仍属早期社区信号而非经同行评审的共识，但其效率声明的具体性值得密切关注。

如果该发现经得起审视，将直接冲击那些塑造了前沿AI技术栈资本配置格局的扩展假设。OpenAI、Google DeepMind、Meta AI和Anthropic均已围绕Chinchilla式理论构建其基础设施布局，该理论主张数据与算力须以大致固定的比例协同扩展。在高算力场景下实现10倍数据效率提升，将有利于算力资源最为充沛的参与者，尤其是Google和Microsoft等超大规模云服务商，同时削弱数据丰富但算力受限的竞争对手的地位。这也将降低大型专有数据集的战略护城河价值——Apple和一些规模较小的微调初创公司一直在悄然依赖这一优势。

这与一条更宏观的研究脉络相呼应——研究界正在质疑token数量究竟是否是语言模型训练的核心制约因素。关于数据质量过滤的研究、Mistral等公司在合成数据生成方面的探索，以及课程学习方向的进展，均指向同一结论：这一领域正在积极重新评估”一个训练token”的价值。一旦10倍效率提升结果得到确认，将加速这一重新评估进程，并对过去三年来主导预训练经济格局的原始数据获取策略——包括网络爬取和授权协议——形成新的压力。

来源：https://qlabs.sh/10x