精选· 重要性 4/5

通义千问发布QVQ-72B-Preview：多模态推理模型新突破

Qwen Team Blog·超过 1 年前·约 7 分钟阅读

中文导读

阿里通义千问团队推出QVQ-72B-Preview，一个基于Qwen2-VL-72B的开源多模态推理模型，在MMMU等基准上表现优异，显著提升了AI在视觉理解和复杂问题求解方面的能力。

GITHUB HUGGING FACE MODELSCOPE KAGGLE DEMO DISCORD语言和视觉在人类心智中交织，塑造了我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆——但当我们将这些能力扩展到AI时会发生什么？

当今的大型语言模型已展现出卓越的推理能力，但我们想知道：它们能否借助视觉理解的力量达到认知能力的新高度？想象一个AI，它能审视复杂的物理问题，并以大师级物理学家的信心有条不紊地推理出解决方案。

这一愿景启发我们创建了QVQ——一个基于Qwen2-VL-72B的多模态推理开放权重模型。QVQ代表着AI在视觉理解和复杂问题解决能力上的重大飞跃。QVQ在MMMU上取得了70.3分，并在数学相关基准上相比Qwen2-VL-72B-Instruct有显著提升。

通过仔细的逐步推理，QVQ在视觉推理任务中展现出增强的能力，尤其在需要复杂分析思维的领域表现出色。局限性QVQ-72B-Preview是Qwen团队开发的实验性研究模型，专注于增强视觉推理能力。

虽然其性能超出了预期，但有几个局限性需要注意：- 语言混合与代码切换：模型可能意外混合语言或切换语言，影响响应清晰度。- 递归推理：模型可能陷入循环逻辑模式，产生冗长响应而无法得出结论。- 安全与伦理考量：模型需要增强安全措施以确保可靠和安全性能，用户部署时应谨慎。

- 性能与基准限制：尽管模型在视觉推理上有所改进，但无法完全取代Qwen2-VL-72B-Instruct的能力。此外，在多步视觉推理过程中，模型可能逐渐失去对图像内容的关注，导致幻觉。

性能我们在4个数据集上评估了QVQ-72B-Preview，包括：- MMMU：一个大学级别的多学科多模态评估数据集，旨在评估模型的视觉相关综合理解和推理能力。

- MathVista：一个以数学为中心的视觉推理测试集，评估包括使用谜题测试图形进行逻辑推理、使用函数图进行代数推理以及使用学术论文图形进行科学推理等能力。

- MathVision：一个高质量的多模态数学推理测试集，源自真实数学竞赛，相比MathVista具有更大的问题多样性和学科广度。

- OlympiadBench：一个奥林匹克竞赛级别的双语多模态科学基准测试集，包含来自奥林匹克数学和物理竞赛的8476道题目，包括中国高考。每个问题都附有专家级注释，详细说明逐步推理过程。

特别是，QVQ-72B-Preview在MMMU基准上取得了令人印象深刻的70.3分，显著超越其前身Qwen2-VL-72B-Instruct。此外，在其余三个专注于数学和科学问题的基准中，该模型表现出色，有效缩小了与领先的最先进o1模型的差距。

演示案例在接下来的部分中，我们提供几个示例来说明这个新模型在视觉推理任务中的应用。让我们一步步解决这个问题。我们有两个函数f(x)和g(x)，以及它们的导数f'(x)和g'(x)，针对特定的x值列表。

我们需要求h'(2)，其中h(x)是f(x)和g(x)的乘积。即h(x) = f(x) * g(x)。首先，我需要回顾导数的乘积法则。乘积法则告诉我们如何求两个函数乘积的导数。

它指出，如果你有两个可微函数u(x)和v(x)，那么它们乘积的导数由下式给出：(u*v)'(x) = u'(x)*v(x) + u(x)*v'(x)因此，在这种情况下，u(x)是f(x)，v(x)是g(x)。

所以，h'(x) = f'(x)*g(x) + f(x)*g'(x)。现在，我需要求h'(2)，这意味着我需要在x=2处计算这个导数。

查看表格：在x=2处，f(2) = -3f'(2) = -8g(2) = 1g'(2) = 7将这些值代入乘积法则公式：h'(2) = f'(2)*g(2) + f(2)*g'(2)= (-8)(1) + (-3)(7)= -8 + (-21)= -29等一下，

让我再检查一下。也许我应该考虑是否有其他方法来解决这个问题。另一种方法可能是考虑导数的性质，看看是否有不同的方式来计算h'(2)。但我认为乘积法则在这里是最直接的方法。

让我再次验证表格中的值：f(2) = -3f'(2) = -8g(2) = 1g'(2) = 7根据表格，这些似乎是正确的。或者，也许我应该考虑函数f(x)和g(x)是否有任何特殊性质，或者是否有我遗漏的模式。

例如，g(x)是常数函数吗？查看表格：g(-2) = -11g(-1) = -2g(0) = -1g(1) = -2g(2) = 1g(x)似乎不是常数，因为值在变化。同样，f(x)也在变化。

如果这是一个现实世界的问题，也许我应该考虑单位，但既然这是一个抽象的数学问题，那可能没有帮助。

或者，也许我应该考虑导数的几何解释。导数h'(2)表示h(x)在x=2处的瞬时变化率。但同样，这可能无助于计算数值。让我再次代入数值以确保我没有计算错误。

h'(2) = f'(2)*g(2) + f(2)*g'(2)= (-8)(1) + (-3)(7)= -8 + (-21)= -29不，这似乎是正确的。等等，也许我应该考虑表格是否有任何单位，或者我是否遗漏了缩放因子，但问题没有指示任何单位，所以我假设这些值只是数值。

或者，也许问题或表格中有笔误，但根据给定的信息，计算似乎很直接。让我考虑是否有方法交叉验证这个结果。假设我要考虑函数h(x)=f(x)*g(x)，并且我想求h'(2)。

另一种思考方式是考虑导数的定义：h'(2) = lim[h->0] [h(2+h) - h(2)] / h但在不知道f(x)和g(x)显式形式的情况下，这种方法不实用，因为我无法计算任意h的h(2+h)。

因此，依赖乘积法则似乎是这里最合适的方法。所以，我的最终答案是h'(2) = -29。最终答案$$ \boxed{-29} $$下一步随着我们朝着实现AGI迈进，我们的愿景是开发一个全能和智能的模型。

为了实现这一目标，我们正在增强我们的视觉语言基础模型，使其具备基于视觉信息进行深度思考和推理的高级能力。在不久的将来，我们计划将更多模态集成到一个统一模型中，使其更加智能，能够应对复杂挑战并参与科学探索。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读