一个 AI Agent 跑了 700 次实验，找到了人类研究者错过的东西

背景

对 AI 驱动研究的标准反对意见一直是：Agent 缺乏形成好假设的直觉。2026 年 3 月，这个反对意见变得更难站稳了。Andrej Karpathy 对 nanochat（一个小型、干净的语言模型代码库）运行了一个自动研究 Agent，让它自由运行。它记录了 700 次实验，找到了 11% 的提升。在同一代码库上工作的人类研究者没有找到这个改进。差距不在于创造力，而在于吞吐量。

他们发现了什么

Agent 识别出了一个配置变更——不是新颖的架构，而是训练循环中的一个调优调整——在模型的基准测试套件上产生了 11% 的提升。这个结果需要 700 次运行才能浮现。人类研究者按顺序运行实验需要数周；Agent 并行运行，没有上下文切换成本。Karpathy 的结论很直接：18 个月内，每个严肃的 AI 实验室都将运行自动研究流水线。

如何运作

自动研究 Agent 遵循一个简单循环：提出变更、运行训练或评估任务、记录结果、更新假设表、重复。智能体现在提案函数中——根据以往的成功经验决定下一步尝试什么。这是对配置空间的结构化搜索，不是从第一性原理推理。它之所以有效，是因为 ML 改进主要是经验性的：正确答案存在于搜索空间中，只需要足够多的运行次数才能找到。算力取代直觉。

为什么重要

中型 AI 公司的 ML 研究团队现在面临生产力差距：拥有自动研究流水线的实验室在相同硬件上迭代更快，将新想法到验证结果的周期从数周压缩到数小时
计算资源有限的学术 ML 研究者在结构上处于劣势，无法与能够并行运行数百次实验的团队竞争——该领域的产出将越来越集中在算力丰富的机构
构建研究工具的创业者（实验追踪、超参数搜索、评估基础设施）有了新的切入点：自动研究 Agent 需要更好的日志记录、去重和假设管理工具

来源： Karpathy on Autoresearch — X