精选· 重要性 4/5

Qwen VLo：统一多模态理解与生成，从理解世界到描绘世界

Qwen Team Blog·大约 1 年前·约 7 分钟阅读

中文导读

Qwen VLo是阿里通义千问推出的统一多模态理解与生成模型，支持文本到图像生成、图像编辑、风格迁移等任务，并具备渐进式生成和语义一致性能力，标志着多模态模型从感知到创造的跨越。

介绍多模态大模型的发展正在不断突破我们认为技术可以实现的极限。从最初的 QwenVL 到最新的 Qwen2.5 VL，我们在增强模型理解图像内容的能力方面取得了进展。今天，我们很高兴介绍一个新模型 Qwen VLo，这是一个统一的多模态理解和生成模型。

这种新升级的模型不仅“理解”世界，还能基于这种理解生成高质量的再现，真正弥合了感知和创造之间的鸿沟。请注意，这是预览版本，您可以通过 Qwen Chat 访问它。

您可以直接发送“生成一只可爱猫的图片”等提示来生成图像，也可以上传猫的图片并要求“在猫头上添加一顶帽子”来修改图像。图像生成过程如下所示。创意过程：将你的想象变成现实正如展示生成过程的视频所示，Qwen VLo 采用渐进生成方法，从左到右、从上到下逐步构建整个图像。

在这个过程中，模型不断优化其预测，以确保最终结果连贯和谐。这种生成机制不仅增强了视觉质量，还为用户提供了更灵活、更可控的创意体验。

从理解到创造：增强的多模态生成能力Qwen VLo 对其原有的多模态理解和生成能力进行了全面升级。它显著加深了对图像内容的理解，并实现了更准确、一致的生成结果。

以下是 Qwen VLo 的核心亮点：更精确的内容理解和再现之前的多模态模型在生成过程中经常遇到语义不一致的问题，例如将汽车误认为其他物体，或未能保留原始图像的关键结构特征。Qwen VLo 配备了增强的细节捕捉能力，在整个生成过程中保持了高度的语义一致性。

例如，当用户输入一张汽车照片并请求“更改颜色”时，Qwen VLo 能准确识别车型，保留其原始结构，并自然改变颜色风格。生成的结果符合预期，同时保持真实感。

支持开放式指令编辑用户可以用自然语言提供创意指令，例如“将这幅画改为梵高风格”、“让这张照片看起来像是来自19世纪”或“在这张图像中添加晴朗的天空”。Qwen VLo 能灵活响应这些开放式命令，并产生符合用户期望的结果。

无论是艺术风格迁移、场景重建，还是细节润色，模型都能轻松应对。即使是传统的视觉感知任务，例如预测深度图、分割图、检测图和边缘信息，也可以通过简单的编辑指令完成。

此外，Qwen VLo 还能无缝处理更复杂的指令——例如修改物体、编辑文本和更改背景——所有这些都在一个命令内完成。多语言指令支持Qwen VLo 支持中文和英语等多种语言，打破语言障碍，为全球用户提供统一、便捷的交互体验。

无论您使用哪种语言，只需描述您的需求，模型就会快速理解并提供所需的输出。演示案例Qwen VLo 就像一位人类艺术家，用自己的理解将想象变成现实。以下是一些例子供参考。

Qwen VLo 能够直接生成图像，并通过替换背景、添加主体、进行风格迁移，甚至基于开放式指令执行广泛修改，以及处理检测和分割任务。

生成一个可爱的柴犬背景改成草原给它戴上红色帽子和黑色透明墨镜，帽子上写着“QwenVLo”变成吉卜力风格变成3D Q版风格把它放到水晶球里桌面上摆着这个水晶球，

生成以一个人的第一视角在公园的圆形咖啡桌上在笔记本上画画用蓝色的蒙版检测框框出图中的笔用粉色的mask分割出图中的狗狗边缘Qwen VLo 可以根据其理解重新解释和重新创建，从而在风格变化和迁移方面具有更大的灵活性，例如将卡通转换为逼真的图像或将人物变成气球等创意输出。

变成真实照片背景改成埃菲尔铁塔变成漂浮在空中的气球用榴莲替换西瓜该模型在图像和指令理解方面的先进能力使其能够更好地解释复杂命令，将多个操作和修改整合到单个指令中。

这允许一次性完成多步骤任务，例如创建海报或组合物体。生成一张照片，图中男人戴着黑帽子在地铁上看报纸，旁边是一个美丽的戴红色墨镜的年轻女性，还有一只哈士奇，地铁窗外是自由女神像，地铁站牌显示“Qwen VLo”。

除了图像编辑和重新创建之外，Qwen VLo 还能对现有信息进行标注，例如检测、分割、边缘检测等。生成一张摆满水果的桌子预测边缘检测图使用红色蒙版分割图像中香蕉的边缘。Qwen VLo 支持多张输入图像的理解和生成。

（多张图像输入功能尚未正式上线，敬请期待。）把这些洗浴用品放到这个红色的篮子里面此外，除了支持文本和图像输入的任务外，Qwen VLo 还支持直接的文本到图像生成，包括一般图像以及双语（中文和英文）海报。

Qwen VLo 支持动态宽高比的图像生成，可以轻松处理宽高比高达4:1或1:3的狭长格式。

（生成极端宽高比图像的功能尚未正式上线，敬请期待。）动漫插画；水彩手绘；前景是草坡，草坡上有个人在奔跑，动态感，然后是厚重的白云；蓝色背景；颜色层次多渐变；过渡自然和谐作为一种统一的理解和生成模型，Qwen VLo 还能对它生成的内容进行重新分析和理解。

例如，它可以识别生成的图像中狗和猫的品种。该图像显示了一只小狗和一只小猫在舒适的室内环境中互动。让我们识别品种：狗：- 这只小狗看起来是小猎犬或小猎犬混血。主要特征包括：- 三色被毛（棕色、白色和黑色）。

- 松软的耳朵。- 紧凑的身体结构。- 富有表情的眼睛和友好的举止。猫：- 这只小猫看起来是一只虎斑猫。主要特征包括：- 条纹或斑点毛皮图案，这是典型的

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读