LongVideoAgent: Multi-Agent Reasoning with Long Videos

Runtao Liu*, Ziyi Liu*, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
Hong Kong University of Science and Technology
{rliuay@connect.ust.hk, ziyiliu0811@outlook.com}
* Equal Contribution. Work done during Ziyi's internship in HKUST.

摘要

多模态大语言模型(MLLMs)和利用工具进行长视频问答(QA)的系统最近取得了显著进展,展示了对长达数小时视频进行推理的潜力。 然而,许多现有方法仍将内容压缩为有损摘要,或依赖有限的工具集,导致时间定位能力减弱并遗漏细粒度线索。 我们提出了 LongVideoAgent,这是一个多智能体框架,其中主控智能体(Master LLM)协调定位智能体(Grounding Agent)来定位与问题相关的片段,并协调视觉智能体(Vision Agent)提取针对性的文本观察。 主控智能体在设定的步数限制内进行规划,并通过强化学习进行训练,以鼓励简洁、准确且高效的多智能体协作。 这种设计通过定位功能帮助主控智能体关注相关片段,利用视觉细节补充字幕信息,并产生可解释的推理轨迹。 在我们提出的 LongTVQALongTVQA+(从 TVQA/TVQA+ 聚合而成的剧集级数据集)上,我们的多智能体系统显著优于强大的非智能体基线模型。 实验还表明,强化学习进一步增强了训练后智能体的推理和规划能力。

概览

传统的单次推理 MLLM 在单一上下文中处理整个长视频(通常通过重度下采样和压缩),往往会遗漏关键证据并产生错误答案。而 LongVideoAgent 通过多智能体、多轮、多模态推理来提取稀疏且任务相关的线索,从而给出正确答案。

Overview Teaser

方法:多智能体框架

Architecture

LongVideoAgent 架构。主控智能体(MasterAgent)运行最多 \(K\) 轮,与定位智能体(GroundingAgent)协作从视频中定位相关片段,并与视觉智能体(VisionAgent)协作从定位的帧中读取细粒度线索。证据不断累积,直到主控智能体有信心回答用户。

迭代推理循环

与单次推理模型不同,LongVideoAgent 在有限循环(最多 \(K\) 步)中运行。在每一步中,主控智能体生成“思考”轨迹并发出结构化的动作标记:

  • <request_grounding>:调用定位智能体,根据字幕定位相关的视频片段。智能体返回一个符号标签 <clip_X>
  • <visual_query>:调用视觉智能体,从定位的片段中提取特定的视觉细节(物体、动作、文本)。智能体返回文本观察结果。
  • <answer>:当收集到足够证据时,终止循环并提供最终回答。

强化学习 (GRPO)

我们使用组相对策略优化(GRPO)来优化主控智能体。训练目标包括:1. 结构有效性。2. 回答正确性:奖励智能体得出正确的最终答案。

实验结果

我们在剧集级数据集 LongTVQA 和 LongTVQA+ 上评估了 LongVideoAgent。

主要结果

Main Results

在 LongTVQA 和 LongTVQA+ 上的表现。左侧栏列出了模型属性(智能体化、输入方式、RL 微调);右侧栏报告了验证集准确率(%)。GPT-4o 和 Gemini-2.5 Pro 是直接处理并接收完整长视频的多模态基线模型。标记为 Agentic 的方法表示模型作为主控智能体运行;标记为 AgenticRL 的方法额外表示进行了强化学习微调。括号中的绿色数字表示相对于前一设置(非智能体或非 RL)的绝对增益。我们观察到:(i) 我们的多智能体框架 LongVideoAgent 一致优于非智能体对应模型;(ii) 智能体化强化学习带来了额外增益,特别是对于较小的开源模型;(iii) 使用视频帧提供了字幕之外的视觉证据,且通常优于仅使用字幕的输入;(iv) 闭源模型依然强大,但当开源模型采用智能体设计和智能体化强化学习时,差距显著缩小。

消融实验分析

我们进行了全面的消融研究以验证我们的设计选择。首先,我们观察到定位智能体和视觉智能体都是必不可少的,完整的多智能体系统达到了最高准确率。其次,增加推理步数限制 \(K\) 会提高性能直到饱和,证实了迭代规划的价值。最后,更强大的视觉骨干网络和更大的时间窗口提供了更丰富的上下文,进一步提升了智能体的推理能力。

Ablation Analysis

BibTeX

@misc{liu2025longvideoagentmultiagentreasoninglong,
      title={LongVideoAgent: Multi-Agent Reasoning with Long Videos}, 
      author={Runtao Liu and Ziyi Liu and Jiaqi Tang and Yue Ma and Renjie Pi and Jipeng Zhang and Qifeng Chen},
      year={2025},
      eprint={2512.20618},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2512.20618}, 
}