VSAS-Bench：视觉流式助手模型的实时评估基准

Apple Machine Learning Research·2 个月前·约 3 分钟阅读

VSAS-Bench：视觉流媒体助理模型的实时评估作者Pavan Kumar Anasosalu Vasu*，Cem Koc*，Fartash Faghri*，Chun-Liang Li，Bo Feng，Zhengfeng Lai，Meng Cao，

Oncel Tuzel，

Hadi Pouransari*内容类型论文发表于2026年5月VSAS-Bench：视觉流媒体助理模型的实时评估作者Pavan Kumar Anasosalu Vasu*，Cem Koc*，Fartash Faghri*，Chun-Liang Li，Bo Feng，

Zhengfeng Lai，Meng Cao，Oncel Tuzel，Hadi Pouransari*在指令提示和在线输入帧流的情况下，流媒体视觉语言模型（VLM）连续生成响应。这是实时视觉助手的核心机制。

现有的VLM框架主要评估离线环境中的模型。相比之下，流媒体VLM的性能取决于纯粹视频理解之外的其他指标，包括反映模型响应的及时性的主动性和反映其响应随时间推移的稳健性的一致性。为了解决这一局限性，我们提出了VSAS-Bench，这是视觉流媒体助理的新框架和基准。

与主要在视频输入上使用单轮问答的先前基准相反，VSAS-Bench具有时间密集的注释，跨越不同的输入域和任务类型，超过18，000个注释。我们引入了标准化的同步和同步评估协议，以及隔离和测量流媒体TLR不同功能的指标。

使用该框架，我们对最近的视频和流媒体VLM进行了大规模评估，分析了内存缓冲区长度、内存访问策略和输入分辨率等关键设计因素下的准确性-延迟权衡，得出了一些实用的见解。

最后，我们从经验上证明，传统的VLM可以在无需额外训练的情况下适应流媒体设置，并证明这些调整后的模型优于最近的流媒体VLM。例如，在同步协议下，Qwen 3-BL-4 B比Dispider（我们基准测试中最好的流媒体VLM）高出3%。

- * 同等贡献FastVLM：视觉语言模型的高效视觉编码2025年7月23日研究领域计算机视觉视觉语言模型（VLM）支持视觉理解以及文本输入。它们通常是通过投影层将视觉标记从预训练的视觉编码器传递到预训练的大型语言模型（LLM）来构建的。

通过利用视觉编码器的丰富视觉表示以及LLM的世界知识和推理能力，VLM可以用于广泛的应用，包括可访问性.我们距离智能视觉演绎推理还有多远？2024年5月1日研究领域计算机视觉，研究领域语音和自然语言处理我们距离AGI还有多远？

这篇论文在“我们距离AGI有多远？”上被接受。2024年ICLR研讨会。

GPT-4V等视觉语言模型（VLM）最近在多样化视觉语言任务方面取得了令人难以置信的进步。我们深入研究了基于视觉的演绎推理，这是一个更复杂但探索较少的领域，并在当前SOTA VLM中找到了以前未暴露的盲点。

具体来说，我们利用Raven的渐进矩阵（RPMs）来评估VLM的.

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读