QVQ-Max：用证据思考的视觉推理模型

Qwen Team Blog·超过 1 年前·约 5 分钟阅读

QWen Chatat Gupub拥抱脸模型范围发现介绍去年12月，我们推出了QVQ-72 B-Preview作为探索性模型，但它存在很多问题。今天，我们正式发布了我们的视觉推理模型QVQ-Max的第一版。

该模型不仅可以“理解”图像和视频中的内容，还可以利用这些信息进行分析和推理以提供解决方案。从数学问题到日常问题，从编程代码到艺术创作，QVQ-Max展示了令人印象深刻的能力。虽然这只是我们的第一个版本，但它的潜力已经引人注目。

MathVision是一个汇集各种具有挑战性的多模式数学问题的基准，我们根据模型在此基准上的表现来评估模型解决复杂数学问题的能力。如图所示，通过调整模型思维过程的最大长度，我们观察到模型在MathVision上的准确性不断提高，展示了模型的巨大潜力。

在接下来的部分中，我们将讨论QVQ-Max背后的设计理念、其实际功能以及它可以为您做什么。为什么我们需要视觉推理？传统的人工智能模型大多依赖于文本输入，例如回答问题、写文章或生成代码。然而，在现实生活中，大部分信息不是通过文字表达的，而是通过图像、图表甚至视频表达的。

单个图像可以包含丰富的细节，例如颜色、形状、空间关系等。这些元素通常更直观，但也比文本更复杂。例如，如果您想确定架构蓝图是否合理，仅进行描述可能还不够。但如果您能够看到蓝图并使用专业知识进行分析，任务就会变得容易得多。

这就是视觉推理的意义--它允许人工智能不仅“看”，还可以“理解”和“思考”。”我们设计QVQ-Max的目标很简单：打造一款“眼尖”、“思维敏捷”的助手，能够为用户解决各种实际问题。核心能力：从观察到推理QVQ-Max的能力可以概括为三个方面：细致观察、深度推理、灵活应用。

让我们详细分析一下它在每个领域的表现。详细观察：捕捉每个细节QVQ-Max擅长解析图像，无论是复杂的图表还是日常生活中拍摄的随意快照。它可以快速识别图像中的关键元素。例如，它可以告诉您照片中有哪些对象、存在哪些文本标签，甚至指出您可能忽视的小细节。

深度推理：不仅“看到”，而且“思考”识别图像中的内容还不够。QVQ-Max可以进一步分析这些信息，并结合背景知识得出结论。

例如，在几何问题中，它可以根据随附的图表得出答案。在视频剪辑中，它可以根据当前场景预测接下来可能发生的事情。灵活应用：从解决问题到创造除了分析和推理之外，QVQ-Max还可以执行有趣的任务，例如帮助您设计插图、生成短视频脚本，甚至根据您的要求创建角色扮演内容。

如果您上传粗略的草图，它可能会帮助您将其细化为完整的作品。上传一张普通照片，它可以变成敏锐的评论家甚至算命师。演示案例QVQ-Max应用范围广泛，无论是学习、工作还是日常生活，在很多场景中都能派上用场。

工作场所工具：在工作中，QVQ-Max可以协助完成数据分析、组织信息，甚至编写代码学习助理：对于学生来说，QVQ-Max可以帮助解决数学和物理等科目中的难题，尤其是那些带有图表的问题。它还可以以直观的方式解释复杂的概念，使学习变得更容易。

生活助手：在日常生活中，QVQ-Max可以提供实用建议。例如，它可以根据您衣柜的照片推荐服装组合，或者根据食谱图像指导您烹饪新菜肴。下一步当前版本的QVQ-Max只是第一次迭代，还有很大的改进空间。

展望未来，我们将重点关注几个关键领域：- 更准确的观察：通过基础技术来增强识别准确性，该技术验证从视觉内容中得出的观察结果。- 视觉代理：提高模型处理多步骤和更复杂任务的能力，例如操作智能手机或计算机，甚至玩游戏。

- 更好的互动：扩展到基于文本的交互之外，包括更多模式，例如工具验证和视觉生成，从而实现更丰富的用户体验。总体而言，QVQ-Max是一个兼具“视觉”和“智力”的视觉推理模型。“它不仅识别图像中的内容;

它还结合这些信息来分析、推理，甚至完成创意任务。尽管仍处于成长阶段，但已经展现出巨大的潜力。通过持续优化，我们的目标是让QVQ-Max成为真正实用的视觉代理，帮助每个人解决现实世界的问题。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读