ScatterAI
Issue #12 · 2026年3月26日

当模型忽略视频自身提供的信息时,长视频问答系统失效

Research

仅基于查询的检索存在结构性缺陷。当一个长视频理解系统寻找相关片段时,它仅仅判断该片段是否与查询匹配,然后就此止步。这种方法忽略了视频自身的内部逻辑,例如共享视觉上下文的场景、预示叙事转变的时间过渡,以及即使没有直接提及查询,某些片段也可能因为它们连接了其他相关片段而变得相关。

VideoDetective 将视频片段检索重构为一个图问题。每个视频片段都成为一个节点;边同时编码两种信号:片段之间的视觉相似性和时间邻近性。然后,系统运行一个假设-验证-细化(HVR)循环。它从查询中形成一个初始关联度假设,根据图的片段间亲和结构进行验证,然后细化要呈现的片段。这个循环让模型能够在整个图上传播关联度,因此即使查询本身不会标记一个片段,但只要它(在视觉上或时间上)邻近一个高关联度的片段,其得分也会提高。仅基于查询的基线完全错过了这种内在结构。

实际意义是直接的:对于构建长视频问答流水线的团队来说,检索质量是上限,而仅基于查询的检索则忽略了图结构的证据。HVR 循环增加了推理时间成本,但它通过使用视频自身几何结构,取代了结构上不完整的检索过程。