BalCapRL：基于RL的MLLM图像字幕平衡框架

Apple Machine Learning Research·3 个月前·约 3 分钟阅读

BalCapRL：基于RL的MLLM图像字幕的平衡框架作者叶少凯、Vasileios Saveris、钱一浩、胡家明、Elmira Amirloo、Peter Grasch内容类型论文发表于2026年5月BalCapRL：基于RL的MLLM图像字幕的平衡框架作者叶少凯、

Vasileios Saveris、钱一浩、胡家明、Elmira Amirloo、Peter Grasch图像字幕是计算机视觉中最基本的任务之一。由于其开放性，它在多模式大型语言模型（MLLM）时代受到了广泛关注。

为了追求更详细和准确的字幕，最近的工作越来越多地转向强化学习（RL）。然而，现有的字幕RL方法和评估指标通常强调字幕质量的狭隘概念，导致字幕核心维度之间的权衡。

例如，面向实用的目标可能会鼓励吵闹、幻觉或过长的字幕，从而改善下游问题回答，同时损害流畅性，而竞技场式目标可能会倾向于流畅但通用的描述，但有用性有限。为了解决这个问题，我们提出了一个更加平衡的RL框架，该框架联合优化实用程序感知的正确性、参考覆盖率和语言质量。

为了有效优化所得的连续多目标奖励公式，我们将GDPO式的奖励脱钩规范化应用于连续值字幕奖励，并表明它比普通GRPO提高了性能。此外，我们引入了长度条件奖励掩蔽，为字幕提供了更合适的长度惩罚。穿过LLaVA-1。

5- 7 B和Qwen 2。5-VL 3B和7 B基本模型，我们的方法始终提高字幕质量，峰值增益为+13。6 DCSCore，+9。0 CaptionQA，+29。0 CapArena跨不同型号。

RubiCAP：用于密集图像字幕的Ruby引导强化学习2026年3月16日研究领域计算机视觉、研究领域数据科学与注释密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要，但扩展专家质量的注释的成本过高。

虽然通过强视觉语言模型（VLMS）的合成字幕是一种实用的替代方案，但监督蒸馏通常会产生有限的输出多样性和弱的概括性。

强化学习（RL）可以克服这些限制，但它.在预训练多峰基础模型中重新访问大规模图像字幕数据2025年4月8日研究领域计算机视觉，研究领域方法和边界会议ICLR多模式模型的最新进展凸显了重写字幕对提高性能的价值，但关键挑战仍然存在。

值得注意的是，合成字幕的作用及其与原始网络抓取AltTexts在预训练中的交互仍然不清楚。此外，不同的多模式基金会模型可能对特定的字幕格式有不同的偏好，而研究每个基金会的最佳字幕的努力.

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读