01 [评估] 真实网站会让你的智能体遭到封禁——合成克隆网站才能让它完成训练
网页智能体训练存在一个结构性陷阱:真实网站会屏蔽机器人,无法干净地重置状态,也无法告知智能体是否真正完成了任务。常见的解决方案是使用 LLM(大语言模型)评判器对智能体行为打分,但这又引入了第二个问题。用另一个模型来评估模型,意味着基于启发式规则或 LLM 的奖励信号会产生漂移、出现幻觉,且难以规模化。
VeriEnv 将语言模型定位为环境创建者而非评估者,同时绕过了这两个限制。LLM 将真实网站克隆为一个完全可执行的合成副本,并通过 Python SDK(软件开发工具包)暴露其内部状态。智能体可以读取页面状态、触发操作,并获得以程序化方式计算的奖励——对照内部真值状态进行的确定性检验,而非依赖 LLM 的主观判断。任务生成同样是自驱动的:智能体针对合成环境自行提出任务,使训练分布无需人工整理即可持续扩展。瓶颈从”能否安全地收集经验”转移到了”克隆环境的速度有多快”。
这一方法存在局限性。克隆环境只是真实网站的近似,无法涵盖线上网站产生的每一种边缘情况,克隆版本与生产环境之间的结构漂移是真实存在的部署风险。在标准网页智能体评测基准上,在 VeriEnv 中训练的智能体优于未经此训练的智能体,但合成环境性能与线上网站性能之间的差距仍是尚待解答的问题。对于构建网页自动化流水线的团队而言,其直接价值在于:在接触任何真实网站之前,先使用该框架大规模生成多样且可验证的训练信号,而非将 VeriEnv 训练的智能体直接部署到生产环境中。
核心要点:
- LLM 克隆的网站通过 Python SDK 暴露内部状态,使奖励计算具有确定性,彻底消除了 LLM 评判器的评估环路
- 可扩展的自驱动任务生成使训练分布无需人工标注即可增长,但克隆保真度决定了迁移到线上网站的效果上限
- 训练网页智能体的团队应将 VeriEnv 式合成环境作为大规模预训练阶段,在任何生产部署之前,先通过沙盒账户在真实网站上进行压力测试
来源:Safe and Scalable Web Agent Learning via Recreated Websites