模仿学习无法教会“判断”——在完美演示上训练的 Agent 在分布外场景会失效

背景

模仿学习 (IL)——即训练 Agent 模仿人类专家——是构建网页浏览、软件使用和机器人“基础智能体”的标准方法。假设是，如果 Agent 看到足够多的“完美”演示，它就会学习专家的底层逻辑。然而，当这些 Agent 遇到与训练数据略有不同的情况时，它们通常会崩溃。

他们发现了什么

论文指出了 IL 训练的 Agent 中存在根本性的“判断差距”。因为它们只在正确的动作上受训，它们从未学会区分“好”动作和“灾难性”动作。当它们偏离专家轨迹（分布外）时，它们没有内部机制来评估潜在的下一步动作中哪一个是安全的。相比之下，通过强化学习 (RL) 训练的 Agent 会产生“判断力”，因为它们经历过失败并因此受到惩罚。

如何运作

研究人员比较了在 10,000 条完美轨迹上训练的 Agent，以及在 5,000 条轨迹加上一个评估 5,000 次失败尝试的“评论家”网络上训练的 Agent。尽管“专家”数据较少，但 RL 混合型 Agent 对意外 UI 变化的弹性高出 4 倍。他们发现，学习“不该做什么”在数学上对于泛化比在静态环境中学习“该做什么”更重要。

为什么重要

对于构建自主 Agent 的公司来说，这是一个关键见解。仅仅依赖“黄金路径”数据集会创建在现实世界中脆弱且危险的 Agent。为了建立健壮的判断力，必须允许 Agent 在沙盒环境 (RL) 中失败，以便它们能够建立动作的成本模型。完美演示只是起点，而不是终点。