02 [RAG] 搜索智能体的数据缺口有了结构性解决方案——背后的数据现已公开
高性能深度搜索智能体的训练依赖复杂的多跳推理任务。所有主流实验室在构建此类智能体时,均使用专有的网络数据流水线来生成训练信号。研究社区对此一无所获——正是这一数据缺口,而非模型架构,一直制约着开源搜索智能体的发展。
OpenSeeker 从数据层入手解决这一问题。其核心机制通过拓扑扩展(topological expansion)与实体混淆(entity obfuscation)对网络图进行逆向工程,从零合成复杂的多跳问答(question-answering,即要求模型跨多个文档进行链式推理的问答任务)训练数据。拓扑扩展从种子事实出发,沿链接图向外延伸,构建多文档推理链;实体混淆则遮蔽表层线索,防止模型走捷径直接得出答案,从而迫使模型进行真正的检索与推理,而非简单的模式匹配。最终生成的训练数据可控、有事实依据,能够模拟真实网络搜索任务的分布复杂性,且无需访问任何专有语料库。
此次完整发布——包括模型权重与训练数据——弥补了长期以来导致搜索智能体研究成为”单边竞争”的可复现性缺口。局限性是真实存在的:无论合成多跳任务构造得多么精细,其与真实网络查询之间仍存在分布差异。前沿级别的基准表现能否迁移到文档分布持续变化的生产检索流水线中,仍是一个开放问题。
核心要点:
- 拓扑扩展结合实体混淆,通过遍历网络图结构而非抓取专有内容来合成多跳推理任务,使前沿级别的训练数据可在工业实验室之外复现。
- 开源搜索智能体发展的瓶颈在于数据透明度,而非建模能力;同时完整开放权重与数据,将改变研究社区所能构建的上限。
- 正在构建 RAG(检索增强生成,即将外部检索内容注入生成模型以提升回答质量)流水线或搜索智能体的团队,应在设计自有合成数据流水线之前先获取该发布数据集,因为它目前是多跳检索训练数据质量最清晰的公开基线。
来源: OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
Source: OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training