背景
模仿学习 (IL)——即训练 Agent 模仿人类专家——是构建网页浏览、软件使用和机器人“基础智能体”的标准方法。假设是,如果 Agent 看到足够多的“完美”演示,它就会学习专家的底层逻辑。然而,当这些 Agent 遇到与训练数据略有不同的情况时,它们通常会崩溃。
他们发现了什么
论文指出了 IL 训练的 Agent 中存在根本性的“判断差距”。因为它们只在正确的动作上受训,它们从未学会区分“好”动作和“灾难性”动作。当它们偏离专家轨迹(分布外)时,它们没有内部机制来评估潜在的下一步动作中哪一个是安全的。相比之下,通过强化学习 (RL) 训练的 Agent 会产生“判断力”,因为它们经历过失败并因此受到惩罚。
如何运作
研究人员比较了在 10,000 条完美轨迹上训练的 Agent,以及在 5,000 条轨迹加上一个评估 5,000 次失败尝试的“评论家”网络上训练的 Agent。尽管“专家”数据较少,但 RL 混合型 Agent 对意外 UI 变化的弹性高出 4 倍。他们发现,学习“不该做什么”在数学上对于泛化比在静态环境中学习“该做什么”更重要。
为什么重要
对于构建自主 Agent 的公司来说,这是一个关键见解。仅仅依赖“黄金路径”数据集会创建在现实世界中脆弱且危险的 Agent。为了建立健壮的判断力,必须允许 Agent 在沙盒环境 (RL) 中失败,以便它们能够建立动作的成本模型。完美演示只是起点,而不是终点。