精选· 重要性 5/5

Qwen2-VL发布：多模态视觉语言模型能力全面升级

Qwen Team Blog·将近 2 年前·约 7 分钟阅读

中文导读

阿里通义千问团队发布Qwen2-VL系列视觉语言模型，在图像理解、视频分析、智能体操作及多语言支持上达到领先水平，72B版本超越GPT-4o和Claude 3.5-Sonnet，并开源2B和7B模型。

DEMO GITHUB HUGGING FACE MODELSCOPE API DISCORD经过一年的不懈努力，今天我们很高兴发布Qwen2-VL！Qwen2-VL是Qwen模型家族中基于Qwen2的最新版本视觉语言模型。

与Qwen-VL相比，Qwen2-VL具备以下能力：对各种分辨率和比例的图像的SoTA理解：Qwen2-VL在视觉理解基准上实现了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA等。

理解20分钟以上的视频：Qwen2-VL可以理解超过20分钟的视频，以进行高质量的基于视频的问答、对话、内容创建等。可以操作您的手机、机器人等的智能体：Qwen2-VL具有复杂推理和决策能力，可与手机、机器人等设备集成，实现基于视觉环境和文本指令的自动操作。

多语言支持：除了英语和中文之外，为了服务全球用户，Qwen2-VL现在支持理解图像内不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

我们通过Apache 2.0许可证开源了Qwen2-VL-2B和Qwen2-VL-7B，并发布了Qwen2-VL-72B的API！开源已集成到Hugging Face Transformers、vLLM和其他第三方框架中。

希望您喜欢！

性能我们在六个关键维度上评估了我们模型的视觉能力：复杂的大学水平问题解决能力、数学能力、文档和表格理解能力、多语言文本图像理解能力、一般场景问答能力、视频理解能力和基于智能体的交互能力。

总体而言，我们的72B模型在大多数指标上都表现出顶级性能，甚至经常超过GPT-4o和Claude 3.5-Sonnet等闭源模型。值得注意的是，它在文档理解方面表现出了显著的优势。

在7B规模上，我们设法保留了对图像、多图像和视频输入的支持，以更具成本效益的模型尺寸提供具有竞争力的性能。具体来说，我们的模型在文档理解任务（如DocVQA）和图像的多语言文本理解方面表现出色，由MTVQA评估，建立了最先进的性能。

此外，我们很高兴推出一个更小的2B模型，针对潜在的移动部署进行了优化。尽管尺寸紧凑，该模型在图像、视频和多语言理解方面拥有强大的性能。与类似规模的其他模型相比，它在视频相关任务、文档理解和一般场景问答方面尤其出色。

模型能力1. 增强的识别能力Qwen2-VL现在拥有改进的对象识别功能，超越了植物和地标，可以理解场景中多个对象之间的复杂关系。

我们还显著提高了模型识别图像中手写文本和多种语言的能力，使其更容易被全球用户使用。图像显示了一堆彩色块，上面有数字。

以下是从上到下每个区块的颜色和数量：- 顶行（单个区块）：蓝色，带有数字9- 第二行（两个区块）：浅蓝色，数字7，绿色，数字8- 第三行（三个区块）：紫色与数字4、粉色与数字5、浅绿色与数字6- 底行（四个区块）：红色代表数字0，橙色代表数字1，黄色代表数字2，

浅绿色代表数字32. 视觉推理：解决现实世界问题在这次迭代中，我们显著提高了Qwen2-VL的数学和编码熟练程度。该模型不仅能够通过图像分析来解决问题，还可以通过图表分析来解释和解决复杂的数学问题。

长宽比严重失真的图像也可以被正确解释。此外，我们还加强了该模型从现实世界图像和图表中提取信息的能力，并提高了其指令遵循技能。视觉感知和逻辑推理的融合使模型能够解决实际问题，弥合抽象概念和有形解决方案之间的差距。

为了解决“矩阵中的蛇”问题，我们需要实现一个函数，该函数接受矩阵的大小n和命令列表，并在执行所有命令后返回蛇的最终位置。以下是解决这个问题的分步方法：初始化变量：- 将蛇的当前位置初始化为0。

- 将蛇的方向初始化为“RIGHT”（最初，蛇向右移动）。定义移动函数：- 创建一个函数来根据当前方向和矩阵的大小n移动蛇。- 相应地更新蛇的位置。处理命令：- 遍历命令列表中的每个命令。- 对于每个命令，更新蛇的方向和位置。

返回最终位置：- 处理完所有命令后，返回蛇的最终位置。

以下是实现解决方案的Python代码：class Solution:def finalPositionOfSnake(self,n:int,commands:List[str]) -> int:

# 初始化变量 position = 0 direction = "RIGHT" # 定义移动函数 def move_right():

nonlocal position position += 1 def move_down():nonlocal position position += n def move_left():

nonlocal position position -= 1 def move_up():

nonlocal position position -= n # 处理命令 for command in commands:if command == "RIGHT":move_right() elif command == "DOWN":

move_down() elif command == "LEFT":

move_left() elif command == "UP":move_up() # 返回最终位置 return position此代码定义了一个类Solution，其中包含方法finalPositionOfSnake，该方法接受矩阵的大小n和命令列表，

并在执行所有命令后返回蛇的最终位置。移动函数（move_right、move_down、move_left、move_up）用于根据当前方向更新蛇的位置。3. 视频理解和实时聊天除了静态图像之外，Qwen2-VL还将其能力扩展到视频内容分析。

它可以总结视频内容，回答与视频内容相关的问题，并实时保持持续的对话流，提供实时聊天支持。该功能使其能够充当个人助理，通过提供直接从视频内容中提取的见解和信息来帮助用户。4. 视觉智能体能力：函数调用和视觉交互

Qwen2-VL表现出作为视觉智能体的强大潜力，促进了类似于人类对世界感知的互动。- 该模型支持函数调用，使其能够利用外部工具通过破译视觉线索进行实时数据检索——无论是航班状态、天气预报还是包裹跟踪。

视觉解释与功能执行的集成提高了其实用性，使其成为信息管理和决策的强大工具。- 视觉交互代表着模仿人类感知的重大进步。通过允许模型与类似于人类感官的视觉刺激进行互动，我们正在突破人工智能感知和响应环境的能力的界限。

这种功能为更直观和身临其境的交互铺平了道路，Qwen2-VL不仅充当观察者，而且是我们视觉体验的积极参与者。当然，这个模型并不完美，并且有一些局限性，希望您能够理解。例如，该模型无法从视频中提取音频，其知识仅截至2023年6月。

此外，该模型在处理复杂指令或场景时无法保证完全准确，并且在涉及计

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读