ScatterAI
Issue #8 · 2026年3月19日

搜索智能体的数据缺口有了结构性解决方案——背后的数据现已公开

Research

02 [RAG] 搜索智能体的数据缺口有了结构性解决方案——背后的数据现已公开

高性能深度搜索智能体的训练依赖复杂的多跳推理任务。所有主流实验室在构建此类智能体时,均使用专有的网络数据流水线来生成训练信号。研究社区对此一无所获——正是这一数据缺口,而非模型架构,一直制约着开源搜索智能体的发展。

OpenSeeker 从数据层入手解决这一问题。其核心机制通过拓扑扩展(topological expansion)与实体混淆(entity obfuscation)对网络图进行逆向工程,从零合成复杂的多跳问答(question-answering,即要求模型跨多个文档进行链式推理的问答任务)训练数据。拓扑扩展从种子事实出发,沿链接图向外延伸,构建多文档推理链;实体混淆则遮蔽表层线索,防止模型走捷径直接得出答案,从而迫使模型进行真正的检索与推理,而非简单的模式匹配。最终生成的训练数据可控、有事实依据,能够模拟真实网络搜索任务的分布复杂性,且无需访问任何专有语料库。

此次完整发布——包括模型权重与训练数据——弥补了长期以来导致搜索智能体研究成为”单边竞争”的可复现性缺口。局限性是真实存在的:无论合成多跳任务构造得多么精细,其与真实网络查询之间仍存在分布差异。前沿级别的基准表现能否迁移到文档分布持续变化的生产检索流水线中,仍是一个开放问题。

核心要点:

来源: OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

Source: OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training