ScatterAI
Issue #3 · 2026年2月9日

DeepSeek余波:全行业转向训练效率

Industry

1. DeepSeek余波:全行业转向训练效率

在DeepSeek-R1发布一周后,“DeepSeek冲击”已从市场事件转变为模型开发的结构性转向。此前优先考虑原始规模的实验室现在正积极审计其“代币/美元”效率。报告显示,至少两家总部位于美国的领先实验室已经推迟了即将进行的训练,以集成R1风格的蒸馏和多头潜在注意力(MLA)技术。

人们意识到,600万美元的训练预算可以产生一个与1亿美元以上集群竞争的模型,这打破了资本与能力之间的线性关系。风险投资的兴趣正转向“效率优先”的实验室,硬件利用效率(MFU)已取代H100总数,成为技术尽职调查的关键指标。

Why it matters: