export const prerender = true; 一个 AI Agent 跑了 700 次实验,找到了人类研究者错过的东西 — ScatterAI
ScatterAI
2026年3月13日 · Issue #3

一个 AI Agent 跑了 700 次实验,找到了人类研究者错过的东西

背景

对 AI 驱动研究的标准反对意见一直是:Agent 缺乏形成好假设的直觉。2026 年 3 月,这个反对意见变得更难站稳了。Andrej Karpathy 对 nanochat(一个小型、干净的语言模型代码库)运行了一个自动研究 Agent,让它自由运行。它记录了 700 次实验,找到了 11% 的提升。在同一代码库上工作的人类研究者没有找到这个改进。差距不在于创造力,而在于吞吐量。

他们发现了什么

Agent 识别出了一个配置变更——不是新颖的架构,而是训练循环中的一个调优调整——在模型的基准测试套件上产生了 11% 的提升。这个结果需要 700 次运行才能浮现。人类研究者按顺序运行实验需要数周;Agent 并行运行,没有上下文切换成本。Karpathy 的结论很直接:18 个月内,每个严肃的 AI 实验室都将运行自动研究流水线。

如何运作

自动研究 Agent 遵循一个简单循环:提出变更、运行训练或评估任务、记录结果、更新假设表、重复。智能体现在提案函数中——根据以往的成功经验决定下一步尝试什么。这是对配置空间的结构化搜索,不是从第一性原理推理。它之所以有效,是因为 ML 改进主要是经验性的:正确答案存在于搜索空间中,只需要足够多的运行次数才能找到。算力取代直觉。

为什么重要

来源: Karpathy on Autoresearch — X