深度研究代理不需要互联网；他们需要正确的离线语料库

02 [RAG] 深度研究代理不需要互联网；他们需要正确的离线语料库

在实时网络搜索上训练深度研究代理会带来隐性成本：专有 API 费用不断累积，速率限制在大规模轨迹合成时造成中断，并且整个流程变得无法复现。大多数团队将此视为开展业务的成本。OpenResearcher 在离线状态下运行整个搜索和浏览循环，并与联网基线系统表现相当。

该架构将大多数流程混为一谈的两个关注点分离开来。语料库引导一次性完成：1500万份文档，离线索引。之后，轨迹合成完全通过三个明确的浏览器原语（搜索、打开和查找）针对该静态语料库运行。没有实时 API 调用，没有速率限制，也没有按查询收费的成本。GPT-OSS-120B（一个大型教师模型）生成了超过9.7万条轨迹，其中包括具有重要意义的长周期尾部，其中单条轨迹的工具调用次数超过100次。对该数据上一个30B-A3B稀疏MoE（专家混合）骨干模型进行监督式微调（在特定任务样本上进行的额外训练），可以生成一个研究代理，其在深度研究基准上与联网系统表现相当或超越，且在推理时无需连接互联网。

一个静态的1500万文档语料库会过时。对于时效性重要的领域（竞争情报、前沿研究、实时市场），离线合成存在上限，无论多少轨迹量都无法弥补。这种方法最适用于知识库稳定（科学文献、法律文本、技术文档）且对时效性要求较低的领域。对于从业者而言，更直接的价值可能在于开放的流程本身，而非特定的模型权重：这种规模的可复现轨迹合成，带有已记录的长周期尾部，对于任何在特定领域语料库上训练研究代理的人来说，都是一个可复用的支架。

主要收获：

将语料库引导（一次性、离线）与轨迹合成（多轮、无实时API）解耦，消除了联网训练流程的成本和可复现性问题；针对静态索引的三个浏览器原语足以生成9.7万条以上的轨迹，其中包括超过100次工具调用的长周期示例。
一个完全基于离线轨迹训练的30B-A3B模型，其表现与联网系统相当，这表明轨迹质量和长周期覆盖范围对于研究代理训练而言，比实时数据访问更为重要。
构建特定领域研究代理的团队应将此流程评估为一种“语料库优先”的支架：一次性索引目标文档集，离线大规模合成，并将实时网络访问保留用于推理时的时效性检查，而不是在训练中嵌入API依赖。

来源： OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

来源：OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory