仅基于查询的检索存在结构性缺陷。当一个长视频理解系统寻找相关片段时,它仅仅判断该片段是否与查询匹配,然后就此止步。这种方法忽略了视频自身的内部逻辑,例如共享视觉上下文的场景、预示叙事转变的时间过渡,以及即使没有直接提及查询,某些片段也可能因为它们连接了其他相关片段而变得相关。
VideoDetective 将视频片段检索重构为一个图问题。每个视频片段都成为一个节点;边同时编码两种信号:片段之间的视觉相似性和时间邻近性。然后,系统运行一个假设-验证-细化(HVR)循环。它从查询中形成一个初始关联度假设,根据图的片段间亲和结构进行验证,然后细化要呈现的片段。这个循环让模型能够在整个图上传播关联度,因此即使查询本身不会标记一个片段,但只要它(在视觉上或时间上)邻近一个高关联度的片段,其得分也会提高。仅基于查询的基线完全错过了这种内在结构。
实际意义是直接的:对于构建长视频问答流水线的团队来说,检索质量是上限,而仅基于查询的检索则忽略了图结构的证据。HVR 循环增加了推理时间成本,但它通过使用视频自身几何结构,取代了结构上不完整的检索过程。
- 通过视觉-时间图和 HVR 循环共同解决查询到片段的关联度以及片段间的亲和度;在长视频中,单独的任何一种信号都不足以进行稀疏线索定位。
- 仅基于查询的检索假设相关片段是可独立识别的,当关联度分布在叙事弧线或共享视觉上下文中时,这种假设就会失效。
- 构建长视频检索系统的团队应审查其片段评分器是否能访问片段间的结构,而不仅仅是查询相似性;相对于它所能避免的检索错误,图信号的构建成本很低。