DeepSeek余波：全行业转向训练效率

1. DeepSeek余波：全行业转向训练效率

在DeepSeek-R1发布一周后，“DeepSeek冲击”已从市场事件转变为模型开发的结构性转向。此前优先考虑原始规模的实验室现在正积极审计其“代币/美元”效率。报告显示，至少两家总部位于美国的领先实验室已经推迟了即将进行的训练，以集成R1风格的蒸馏和多头潜在注意力（MLA）技术。

人们意识到，600万美元的训练预算可以产生一个与1亿美元以上集群竞争的模型，这打破了资本与能力之间的线性关系。风险投资的兴趣正转向“效率优先”的实验室，硬件利用效率（MFU）已取代H100总数，成为技术尽职调查的关键指标。

Why it matters: