真实网站会让你的智能体遭到封禁——合成克隆网站才能让它完成训练

01 [评估] 真实网站会让你的智能体遭到封禁——合成克隆网站才能让它完成训练

网页智能体训练存在一个结构性陷阱：真实网站会屏蔽机器人，无法干净地重置状态，也无法告知智能体是否真正完成了任务。常见的解决方案是使用 LLM（大语言模型）评判器对智能体行为打分，但这又引入了第二个问题。用另一个模型来评估模型，意味着基于启发式规则或 LLM 的奖励信号会产生漂移、出现幻觉，且难以规模化。

VeriEnv 将语言模型定位为环境创建者而非评估者，同时绕过了这两个限制。LLM 将真实网站克隆为一个完全可执行的合成副本，并通过 Python SDK（软件开发工具包）暴露其内部状态。智能体可以读取页面状态、触发操作，并获得以程序化方式计算的奖励——对照内部真值状态进行的确定性检验，而非依赖 LLM 的主观判断。任务生成同样是自驱动的：智能体针对合成环境自行提出任务，使训练分布无需人工整理即可持续扩展。瓶颈从”能否安全地收集经验”转移到了”克隆环境的速度有多快”。

这一方法存在局限性。克隆环境只是真实网站的近似，无法涵盖线上网站产生的每一种边缘情况，克隆版本与生产环境之间的结构漂移是真实存在的部署风险。在标准网页智能体评测基准上，在 VeriEnv 中训练的智能体优于未经此训练的智能体，但合成环境性能与线上网站性能之间的差距仍是尚待解答的问题。对于构建网页自动化流水线的团队而言，其直接价值在于：在接触任何真实网站之前，先使用该框架大规模生成多样且可验证的训练信号，而非将 VeriEnv 训练的智能体直接部署到生产环境中。

核心要点：

LLM 克隆的网站通过 Python SDK 暴露内部状态，使奖励计算具有确定性，彻底消除了 LLM 评判器的评估环路
可扩展的自驱动任务生成使训练分布无需人工标注即可增长，但克隆保真度决定了迁移到线上网站的效果上限
训练网页智能体的团队应将 VeriEnv 式合成环境作为大规模预训练阶段，在任何生产部署之前，先通过沙盒账户在真实网站上进行压力测试

来源：Safe and Scalable Web Agent Learning via Recreated Websites