01 [智能体] 大多数研究者都在错误地使用 AI——这张五级地图告诉你原因
“我用 ChatGPT 修代码”和”我让自主研究智能体彻夜运行”之间存在巨大鸿沟,但目前没有任何共同的地图来标示某个具体工作流在这一谱系中的位置。大多数从业者处于中间某处,既没有清晰的词汇来描述自己在做什么,也不清楚自己承担了哪些风险,更不知道下一级集成究竟是什么样子。
本指南将 AI 辅助研究构建为一个五级分类体系,从第一级(单轮问答)延伸至第五级(完全自主的多日研究循环)。各级划分并非随意为之——每进一步,就将更多认识论责任转移给智能体,并引入性质上截然不同的失效模式。该框架的目标对象是 CLI(命令行界面)编程智能体,例如 Claude Code、Codex CLI 和 OpenCode,通过以智能体提示词形式表述的方法论规则,将它们转化为自主研究助手。这些规则将研究者意图编码为结构化约束:智能体可以修改什么、如何报告不确定性、何时必须暂停并进行验证。案例研究涵盖深度学习实验与形式化数学两个领域,二者在基准事实验证结构上存在显著差异。
最具实践价值的切入点是方法论规则层。未经约束的 CLI 智能体会毫无顾忌地运行实验、覆盖文件,并生成看似合理的 LaTeX 证明,却没有任何认识论上的安全保障。提示词层面的防护机制充当了一种轻量级的机构审查流程,直接嵌入智能体循环之中,能够捕捉到智能体即将提交一个实际上尚未验证的结果的情形。在数学领域,验证是形式化的、非黑即白的。在机器学习领域则更为模糊:一个反复重跑实验直到得出有利数字的智能体,正在做一件学界尚未就如何定性达成共识的事情。
该研究的局限性是真实存在的,作者也承认了这一点:这是一份从业者指南,而非实证研究。文中没有不同分类级别之间的对照比较,没有量化的生产力提升数据,也没有关于哪些防护规则最重要的消融实验。其价值在于概念性框架与可复现的工具,而非基准测试数字。
对于已经在运行智能体编程工作流的团队而言,这套分类体系提供了一种诊断工具。如果当前的设置中没有明确规定智能体何时应暂停等待人工验证,那么无论它感觉上有多自主,很可能仍处于第三级或以下。
核心要点:
- 五级分类体系将 AI 研究集成从被动问答工具映射至自主多日智能体;每一级都转移了更多认识论责任,并引入了需要专门防护机制的独特失效模式
- 智能体研究工作流中的真正风险在于缺乏防护的验证环节:智能体倾向于优化出看似合理的输出,而非真实正确的输出,且没有任何结构性机制加以阻止
- 在研究任务中运行 CLI 智能体的团队,应审查当前提示词设置是否包含明确的”暂停并验证”规则;若没有,本文提供的开源框架是一个现成的起点
来源:The Agentic Researcher: A Practical Guide to AI-Assisted Research in Mathematics