精选· 重要性 4/5

Qwen-VL-Plus和Qwen-VL-Max：阿里多模态模型重大升级

Qwen Team Blog·超过 2 年前·约 7 分钟阅读

中文导读

阿里云发布Qwen-VL系列增强版，在图像推理、文本识别和高分辨率处理上大幅提升，性能比肩GPT-4V和Gemini，并在中文任务上超越它们。

随着我们大型语言模型Qwen的快速发展，我们利用Qwen的能力和统一的多模态预训练来解决多模态模型在泛化方面的局限性，并于2023年9月开源了多模态模型Qwen-VL。

最近，Qwen-VL系列进行了重大升级，推出了两个增强版Qwen-VL-Plus和Qwen-VL-Max。这些版本的关键技术进步包括：- 大幅提升图像相关推理能力；- 在识别、提取和分析图像及其中包含的文本细节方面得到显著增强；

- 支持分辨率超过一百万像素的高清图像以及各种宽高比的图像。与开源版本的Qwen-VL相比，这两个模型在多个文本-图像多模态任务中的表现与Gemini Ultra和GPT-4V相当，显著超越了开源模型之前的最佳结果。

值得注意的是，Qwen-VL-Max在中文问答和中文文本理解任务方面优于OpenAI的GPT-4V和Google的Gemini。这一突破凸显了该模型的先进能力及其在多模态AI研究和应用领域树立新标准的潜力。

Qwen-VL-Plus和Qwen-VL-Max的新版本不仅表现出出色的基准性能，而且在现实场景中解决问题的能力也得到了显著提高。

这些先进模型能够轻松进行对话、识别名人和地标、生成文本，并且值得注意的是，它们描述和解释视觉内容的能力得到了显著增强。以下是一些实际示例：1. 基本识别能力最新的Qwen-VL模型现在更擅长准确描述和识别图像中的复杂信息，以及提供详细的背景并回答相关问题。

例如，Qwen-VL不仅可以识别常见物体，还能识别名人和地标。Qwen-VL可以受视觉启发用各种语言写诗，并分析日常截图。以下是世界上最著名、收入最高的名人。从左到右、从上到下：

- 贾斯汀·比伯（加拿大歌手）- 莱昂内尔·梅西（阿根廷足球运动员）- 克里斯蒂亚诺·罗纳尔多（葡萄牙足球运动员）- 埃隆·马斯克（南非出生的美国企业家和商人）- 凯莉·詹纳（美国媒体名人和社交名流）- 泰勒·斯威夫特（美国创作型歌手）- 小罗伯特·唐尼（美国演员）- 斯

嘉丽·约翰逊（美国女演员）值得注意的是，这只是众多才华横溢、成功的名人的一小部分，名声和财富并不是衡量成功或重要性的唯一标准。

以下是提到的名人的中文名字：- 贾斯汀·比伯：贾斯汀·比伯- 莱昂内尔·梅西：莱昂内尔·梅西- 克里斯蒂亚诺·罗纳尔多：克里斯蒂亚诺·罗纳尔多- 埃隆·马斯克：埃隆·马斯克- 凯莉·詹纳：凯莉·詹纳- 泰勒·斯威夫特：泰勒·斯威夫特- 小罗伯特·唐尼：

小罗伯特·唐尼- 斯嘉丽·约翰逊：斯嘉丽·约翰逊请注意，这些只是他们名字翻译成中文的一种可能，在不同的上下文或地区可能会使用其他变体。2. 视觉代理能力：定位的关键作用除了描述和识别的基本能力之外，Qwen-VL还具有令人印象深刻的定位和查询特定元素的能力。

例如，它可以准确突出显示图像中的黑色汽车。此外，Qwen-VL还能够根据场景的当前背景做出判断、推理和决策。3. 视觉推理能力：解决实际问题最新Qwen-VL最显著的进步之一是其基于视觉输入进行复杂推理的能力。

这种增强的视觉推理能力远远超出了简单的内容描述，扩展到对流程图、图表和其他符号系统等复杂表示的理解和解释。在问题解决和推理领域，Qwen-VL-Plus/Max不仅擅长数学问题解决和信息组织，还擅长对图表和图形进行更深入的解释和分析。

图像显示了两个几何图形，一个长方体和一个立方体，并标有尺寸。问题要求计算这些图形的表面积和体积。

- 对于长方体：- 长度（l）= 4厘米- 宽度（w）= 2厘米- 高度（h）= 3厘米长方体的表面积（SA）= 2lw + 2lh + 2wh，体积（V）= lwh代入给定值：

SA = 2(4cm)(2cm) + 2(4cm)(3cm) + 2(2cm)(3cm) = 16cm² + 24cm² + 12cm² = 52cm²V = (4cm)(2cm)(3cm) = 24cm³- 对于立方体：

- 边长（a）= 3分米立方体的表面积（SA）= 6a²，体积（V）= a³代入给定值：SA = 6(3dm)² = 6(9dm²) = 54dm²V = (3dm)³ = 27dm³因此，每个图形的表面积和体积如下：对于长方体：

- 表面积 = 52 cm²- 体积 = 24 cm³对于立方体：- 表面积 = 54 dm²- 体积 = 27 dm³4. 文本信息识别与处理图像中的文本处理也得到了显著改进，特别是在识别中文和英文文本方面。

Qwen-VL-Plus/Max现在可以高效地从表格和文档中提取信息，并重新格式化这些信息以满足自定义输出要求。此外，它还具有识别和转换密集文本的高效机制，在处理包含大量信息的文档时非常有效。

它支持极端宽高比的图像，确保处理多样化视觉内容的灵活性。

如何使用现在，您可以通过Huggingface Spaces、Qwen网站和Dashscope API访问Qwen-VL-Plus和Qwen-VL-Max。

- 在Huggingface Spaces中尝试Qwen-VL-Plus（https://huggingface.co/spaces/Qwen/Qwen-VL-Plus）和Qwen-VL-Max（https:

//huggingface.co/spaces/Qwen/Qwen-VL-Max）登录千问门户网站https://tongyi.aliyun.com/qianwen，并切换到“图像理解”模式以利用最新的Qwen-VL-Max功能。

通过Dashscope平台（https://help.aliyun.com/zh/dashscope/developer-reference/vl-plus-quick-start）访问Qwen-VL-Plus和Qwen-VL-Max的强大API。

总结Qwen-VL-Plus和Qwen-VL-Max在增强高分辨率识别、文本分析和图像推理能力方面取得了重大进展。这些模型现在与GPT-4V和Gemini的性能相匹配，在许多任务（如MMMU、CMMMU和MathVista）上优于所有其他开源和专有模型。

它们在文档分析（DocVQA）和中文相关图像理解（MM-Bench-CN）方面取得了世界一流的成果。我们的目标是不断挖掘和提升Qwen-VL的潜力，使其能够在更广泛的应用中发挥作用。

我们可以将Qwen-VL想象为一名拥有超人视觉和语言理解技能的助手，可以在日常对话以及驾驶环境和编程上下文等复杂场景中提供强有力的支持。

虽然还有很长的路要走，但我们相信Qwen-VL将通过不断的优化和扩展，进化到能够像人类认知一样感知和理解世界！

- 官方网站：https://tongyi.aliyun.com/qianwen- Github：https://github.com/QwenLM/Qwen-VL- Huggingface：http:

//huggingface.co/Qwen/Qwen-VL-Chat- ModelScope：https://modelscope.cn/studios/qwen/Qwen-VL-Chat-Demo- API：https:

//help.aliyun.com/zh/dashscope/developer-reference/tongyi-qianwen-vl-plus-api- Discord：https://discord.gg/CV4E9rpNSD

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读