02 [RAG] 深度研究代理不需要互联网;他们需要正确的离线语料库
在实时网络搜索上训练深度研究代理会带来隐性成本:专有 API 费用不断累积,速率限制在大规模轨迹合成时造成中断,并且整个流程变得无法复现。大多数团队将此视为开展业务的成本。OpenResearcher 在离线状态下运行整个搜索和浏览循环,并与联网基线系统表现相当。
该架构将大多数流程混为一谈的两个关注点分离开来。语料库引导一次性完成:1500万份文档,离线索引。之后,轨迹合成完全通过三个明确的浏览器原语(搜索、打开和查找)针对该静态语料库运行。没有实时 API 调用,没有速率限制,也没有按查询收费的成本。GPT-OSS-120B(一个大型教师模型)生成了超过9.7万条轨迹,其中包括具有重要意义的长周期尾部,其中单条轨迹的工具调用次数超过100次。对该数据上一个30B-A3B稀疏MoE(专家混合)骨干模型进行监督式微调(在特定任务样本上进行的额外训练),可以生成一个研究代理,其在深度研究基准上与联网系统表现相当或超越,且在推理时无需连接互联网。
一个静态的1500万文档语料库会过时。对于时效性重要的领域(竞争情报、前沿研究、实时市场),离线合成存在上限,无论多少轨迹量都无法弥补。这种方法最适用于知识库稳定(科学文献、法律文本、技术文档)且对时效性要求较低的领域。对于从业者而言,更直接的价值可能在于开放的流程本身,而非特定的模型权重:这种规模的可复现轨迹合成,带有已记录的长周期尾部,对于任何在特定领域语料库上训练研究代理的人来说,都是一个可复用的支架。
主要收获:
- 将语料库引导(一次性、离线)与轨迹合成(多轮、无实时API)解耦,消除了联网训练流程的成本和可复现性问题;针对静态索引的三个浏览器原语足以生成9.7万条以上的轨迹,其中包括超过100次工具调用的长周期示例。
- 一个完全基于离线轨迹训练的30B-A3B模型,其表现与联网系统相当,这表明轨迹质量和长周期覆盖范围对于研究代理训练而言,比实时数据访问更为重要。
- 构建特定领域研究代理的团队应将此流程评估为一种“语料库优先”的支架:一次性索引目标文档集,离线大规模合成,并将实时网络访问保留用于推理时的时效性检查,而不是在训练中嵌入API依赖。
来源: OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis
来源:OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory