DeepSport：通过Agent强化学习实现全面体育视频推理的多模态大语言模型

背景设置

当前用于体育视频理解的多模态大语言模型(MLLMs)在设计上都很狭隘——仅限于单一运动项目、单一任务或从未在该领域训练过的零样本方法。没有现存的端到端训练模型能够同时处理高速运动、复杂规则集以及跨多个运动项目的长时间序列推理的组合。DeepSport填补了这一空白，成为首个针对多任务、多运动项目视频推理进行端到端训练的MLLM。

主要发现

DeepSport在多个体育视频基准测试中实现了最先进的性能，在综合体育推理任务上超越了特定任务模型和通用MLLMs。
该系统在单个统一模型中同时处理多样化的任务类型——包括动作识别、规则解释、战术分析和时间事件定位。
Agent强化学习(而非仅有的监督微调)被证明对性能提升至关重要，使模型能够通过多步体育场景推理，而不是对训练示例的模式匹配。
该模型表现出跨运动项目的有意义的泛化能力，表明学到的表示捕捉到了底层的运动和战术概念，而非运动项目特定的捷径。

工作原理

DeepSport建立在多模态基础模型之上，并扩展了Agent强化学习框架，其中模型学习将复杂的体育查询分解为推理步骤，并根据跨任务的答案正确性获得奖励信号。与其为每个任务分别对标签示例进行微调不同，RL循环训练模型进行规划、从视频中检索相关的时间上下文，并将规则知识合成为连贯的答案。这种Agent方法让模型能够处理可变长度的视频输入和开放式的问题类型，无需任务特定的头部或管道。

重要意义

AI从业者/工程师： 单个可训练模型替代特定任务的体育AI管道具有真实的部署意义——构建体育分析产品的团队现在可以考虑基于MLLM的架构，而不是拼凑专门的检测器、跟踪器和分类器。
研究人员： Agent RL应用于视频理解证明了其超越体育领域的潜力——这种为多步时间序列推理设计奖励的方法是可转移的技术，适用于任何需要长上下文视频理解的领域(监控、医疗、工业)。
创始人/开发者： 体育AI市场(广播、教练、博彩、粉丝参与)一直被特定领域模型开发的成本所限制；可泛化的体育MLLM降低了这一门槛，并表明差异化窗口正从模型构建转向数据和分发。

来源：DeepSport: A Multimodal Large Language Model for Comprehensive Sports Video Reasoning via Agentic Reinforcement Learning