背景
对 AI 驱动研究的标准反对意见一直是:Agent 缺乏形成好假设的直觉。2026 年 3 月,这个反对意见变得更难站稳了。Andrej Karpathy 对 nanochat(一个小型、干净的语言模型代码库)运行了一个自动研究 Agent,让它自由运行。它记录了 700 次实验,找到了 11% 的提升。在同一代码库上工作的人类研究者没有找到这个改进。差距不在于创造力,而在于吞吐量。
他们发现了什么
Agent 识别出了一个配置变更——不是新颖的架构,而是训练循环中的一个调优调整——在模型的基准测试套件上产生了 11% 的提升。这个结果需要 700 次运行才能浮现。人类研究者按顺序运行实验需要数周;Agent 并行运行,没有上下文切换成本。Karpathy 的结论很直接:18 个月内,每个严肃的 AI 实验室都将运行自动研究流水线。
如何运作
自动研究 Agent 遵循一个简单循环:提出变更、运行训练或评估任务、记录结果、更新假设表、重复。智能体现在提案函数中——根据以往的成功经验决定下一步尝试什么。这是对配置空间的结构化搜索,不是从第一性原理推理。它之所以有效,是因为 ML 改进主要是经验性的:正确答案存在于搜索空间中,只需要足够多的运行次数才能找到。算力取代直觉。
为什么重要
- 中型 AI 公司的 ML 研究团队现在面临生产力差距:拥有自动研究流水线的实验室在相同硬件上迭代更快,将新想法到验证结果的周期从数周压缩到数小时
- 计算资源有限的学术 ML 研究者在结构上处于劣势,无法与能够并行运行数百次实验的团队竞争——该领域的产出将越来越集中在算力丰富的机构
- 构建研究工具的创业者(实验追踪、超参数搜索、评估基础设施)有了新的切入点:自动研究 Agent 需要更好的日志记录、去重和假设管理工具