ScatterAI
Issue #4 · 2026年3月14日

DeepSport:通过Agent强化学习实现全面体育视频推理的多模态大语言模型

Research

背景设置

当前用于体育视频理解的多模态大语言模型(MLLMs)在设计上都很狭隘——仅限于单一运动项目、单一任务或从未在该领域训练过的零样本方法。没有现存的端到端训练模型能够同时处理高速运动、复杂规则集以及跨多个运动项目的长时间序列推理的组合。DeepSport填补了这一空白,成为首个针对多任务、多运动项目视频推理进行端到端训练的MLLM。

主要发现

工作原理

DeepSport建立在多模态基础模型之上,并扩展了Agent强化学习框架,其中模型学习将复杂的体育查询分解为推理步骤,并根据跨任务的答案正确性获得奖励信号。与其为每个任务分别对标签示例进行微调不同,RL循环训练模型进行规划、从视频中检索相关的时间上下文,并将规则知识合成为连贯的答案。这种Agent方法让模型能够处理可变长度的视频输入和开放式的问题类型,无需任务特定的头部或管道。

重要意义

来源:DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning