ScatterAI
Issue #12 · 2026年3月26日

深度研究代理不需要互联网;他们需要正确的离线语料库

Research

02 [RAG] 深度研究代理不需要互联网;他们需要正确的离线语料库

在实时网络搜索上训练深度研究代理会带来隐性成本:专有 API 费用不断累积,速率限制在大规模轨迹合成时造成中断,并且整个流程变得无法复现。大多数团队将此视为开展业务的成本。OpenResearcher 在离线状态下运行整个搜索和浏览循环,并与联网基线系统表现相当。

该架构将大多数流程混为一谈的两个关注点分离开来。语料库引导一次性完成:1500万份文档,离线索引。之后,轨迹合成完全通过三个明确的浏览器原语(搜索、打开和查找)针对该静态语料库运行。没有实时 API 调用,没有速率限制,也没有按查询收费的成本。GPT-OSS-120B(一个大型教师模型)生成了超过9.7万条轨迹,其中包括具有重要意义的长周期尾部,其中单条轨迹的工具调用次数超过100次。对该数据上一个30B-A3B稀疏MoE(专家混合)骨干模型进行监督式微调(在特定任务样本上进行的额外训练),可以生成一个研究代理,其在深度研究基准上与联网系统表现相当或超越,且在推理时无需连接互联网。

一个静态的1500万文档语料库会过时。对于时效性重要的领域(竞争情报、前沿研究、实时市场),离线合成存在上限,无论多少轨迹量都无法弥补。这种方法最适用于知识库稳定(科学文献、法律文本、技术文档)且对时效性要求较低的领域。对于从业者而言,更直接的价值可能在于开放的流程本身,而非特定的模型权重:这种规模的可复现轨迹合成,带有已记录的长周期尾部,对于任何在特定领域语料库上训练研究代理的人来说,都是一个可复用的支架。

主要收获:

来源: OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

来源:OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory