1. DeepSeek余波:全行业转向训练效率
在DeepSeek-R1发布一周后,“DeepSeek冲击”已从市场事件转变为模型开发的结构性转向。此前优先考虑原始规模的实验室现在正积极审计其“代币/美元”效率。报告显示,至少两家总部位于美国的领先实验室已经推迟了即将进行的训练,以集成R1风格的蒸馏和多头潜在注意力(MLA)技术。
人们意识到,600万美元的训练预算可以产生一个与1亿美元以上集群竞争的模型,这打破了资本与能力之间的线性关系。风险投资的兴趣正转向“效率优先”的实验室,硬件利用效率(MFU)已取代H100总数,成为技术尽职调查的关键指标。
Why it matters:
- 暴力美学式的规模扩张作为通往前沿性能唯一路径的时代正式结束,降低了专业实验室的准入门槛
- 硬件效率优化(如MLA)正成为新模型架构的标准要求
- 中国AI实验室获得了显著的叙事动力,迫使美国实验室为其高得多的性能价格比做出合理解释