AI 见闻
精选· 重要性 4/5

Qwen-Image:20B参数图像基础模型,原生文本渲染与精准编辑

Qwen Team Blog··约 9 分钟阅读
中文导读

阿里云发布Qwen-Image,一款20B参数的MMDiT图像基础模型,在复杂文本渲染和精准图像编辑上取得显著突破,支持中英文高保真渲染,多项基准测试达到最优。

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD我们很高兴发布Qwen-Image,这是一个20B参数的MMDiT图像基础模型,在复杂文本渲染和精确图像编辑方面取得了显著进步。

要尝试最新模型,请访问Qwen Chat并选择“Image Generation”。主要功能包括:- 卓越的文本渲染:Qwen-Image擅长复杂的文本渲染,包括多行布局、段落级语义和细粒度细节。

它支持字母语言(如英语)和语标语言(如中文),且保真度高。- 一致的图像编辑:通过我们增强的多任务训练范式,Qwen-Image在编辑操作中既能保留语义含义,又能保持视觉真实感,表现出色。

- 强大的跨基准性能:在多个公共基准测试中,Qwen-Image在各类生成和编辑任务上始终优于现有模型,为图像生成建立了强大的基础模型。

性能我们在多个公共基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。

Qwen-Image在所有基准测试中均达到最先进水平,展示了其在图像生成和编辑方面的强大能力。

此外,LongText-Bench、ChineseWord和TextCraft的结果表明,它在文本渲染方面表现出色,尤其是在中文文本生成上,大幅优于现有最先进模型。这凸显了Qwen-Image作为领先图像生成模型的独特地位,它兼具广泛的通用能力和卓越的文本渲染精度。

演示Qwen-Image的突出能力之一是在不同场景下实现高保真文本渲染。我们来看一个中文渲染案例:宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。

旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;

另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。该模型不仅准确捕捉了宫崎骏的动漫风格,还真实地渲染了“云存储”、“云计算”、“云模型”等店铺招牌以及酒缸上的“千问”,景深效果逼真。

人物的姿势和表情也完美保留。

我们再看另一个中文渲染示例:一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”,横批“智启通义”,字体飘逸,中间挂着一副中国风的画作,内容是岳阳楼。

该模型准确绘制了左右对联和横批,应用了书法效果,并准确生成了中间的岳阳楼。桌上的青花瓷看起来也非常逼真。

那么,模型在英语方面表现如何呢?我们来看一个英文渲染示例:书店橱窗展示。一个标志显示“New Arrivals This Week”。下面是一个带有“Best-Selling Novels Here”字样的货架标签。

旁边有一张彩色海报,上面写着“Author Meet And Greet on Saturday”,中间是作者肖像。

书架上有四本书,分别是“The light between worlds”、“When stars are scattered”、“The silent patient”、“The night circus”。

在这个例子中,模型不仅准确输出了“New Arrivals This Week”,还准确生成了四本书的封面文字:“The light between worlds”、“When stars are scattered”、

“The silent patient”和“The night circus”。我们来看一个更复杂的英文渲染案例:一张幻灯片,以艺术装饰形状框出排列整齐的文本信息,风格类似优雅的信息图。

正中央清晰显示标题“Habits for Emotional Wellbeing”,周围环绕对称的花卉图案。

左上部分,“Practice Mindfulness”出现在极简莲花图标旁,短句为“Be present, observe without judging, accept without resisting”。

向下移动,“Cultivate Gratitude”写在一张张开的手插图旁,附有文字“Appreciate simple joys and acknowledge positivity daily”。

再往下,左下角“Stay Connected”伴随极简聊天气泡图标,写着“Build and maintain meaningful relationships to sustain emotional energy”。

右下角,新月插图旁描绘了“Prioritize Sleep”,附有文字“Quality sleep benefits both body and mind”。

沿右侧向上,“Regular Physical Activity”靠近慢跑者图标,写着“Exercise boosts mood and relieves anxiety”。

最后,右上角出现“Continuous Learning”与书籍图标配对,写着“Engage in new skill and knowledge for growth”。幻灯片布局完美平衡了清晰度和艺术性,自然引导观众阅读每个文本片段。

在这个案例中,模型需要生成6个子模块,每个都有自己的图标、标题和相应的介绍文字。Qwen-Image完成了布局。那么更小的文字呢?我们来测试一下:一个西装革履的男人站在窗前,看着窗外的明月。

男人手里拿着一张泛黄的纸,上面手写着:“A lantern moon climbs through the silver night,Unfurling quiet dreams across the sky,

Each star a whispered promise wrapped in light,That dawn will bloom,though darkness wanders by.”窗台上有一只可爱的猫。

在这个案例中,纸张不到整个图像的十分之一,文字段落相对较长,但模型仍然准确生成了纸上的文字。如果文字更多呢?我们尝试一个更难的案例:一个穿着“QWEN”标志T恤的中国美女正拿着黑色马克笔面对镜头微笑。

她身后的玻璃板上手写着“一、Qwen-Image的技术路线:探索视觉生成基础模型的极限,开创理解与生成一体化的未来。二、Qwen-Image的模型特色:1、复杂文字渲染。支持中英渲染、自动布局;

2、精准图像编辑。支持文字编辑、物体增减、风格变换。三、Qwen-Image的未来愿景:赋能专业内容创作、助力生成式AI发展。”可以看到,模型在玻璃板上完整生成了手写段落。如果是双语呢?

对于同一场景,我们尝试这个提示:一个穿着“QWEN”标志T恤的中国美女正拿着黑色马克笔面对镜头微笑。

她身后的玻璃板上手写着“Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing.欢迎了解Qwen-Ima

ge,一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑”如您所见,模型在渲染文本时可以随时在两种语言之间切换。Qwen-Image的文本能力使其易于创建海报,例如:一张电影海报。第一行是电影标题,写着“Imagination Unleashed”。

第二行是副标题,写着“Enter a world beyond your imagination”。第三行写着“Cast: Qwen-Image”。第四行写着“Director: The Collective Imagination of Humanity”。

中央视觉是一台光滑的未来主义电脑,从中迸发出绚丽的色彩、异想天开的生物和动态旋转图案,充满能量、动感和超现实创造力。

背景从深沉的宇宙色调过渡到明亮梦幻的广阔空间,唤起数字幻想领域。底部边缘,文字“Launching in the Cloud, August 2025”以粗体现代无衬线字体呈现,带有发光半透明效果,营造高科技电影美学。

整体风格融合了科幻超现实主义与平面设计特色——鲜明对比、生动色彩分级和分层视觉深度——让人联想到远见概念艺术和数字哑光绘画,32K分辨率,超精细。既然能制作海报,当然也能直接制作PPT。

我们来看一个中文PPT制作案例:一张企业级高质量PPT页面图像,整体采用科技感十足的星空蓝为主色调,背景融合流动的发光科技线条与微光粒子特效,营造出专业、现代且富有信任感的品牌氛围;页面顶部左侧清晰展示橘红色Alibaba标志,色彩鲜明、辨识度高。

主标题位于画面中央偏上位置,使用大号加粗白色或浅蓝色字体写着“通义千问视觉基础模型”,字体现代简洁,突出技术感;主标题下方紧接一行楷体中文文字:“原生中文·复杂场景·自动布局”,字体柔和优雅,形成科技与人文的融合。

下方居中排布展示了四张图片,分别是:一幅写实

原文出处
Qwen-Image: Crafting with Native Text Rendering

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读