简而言之，昨夜，阿里版GPT-4o登场，一句话精准P图，免费可用

发表评论

A+

所属分类：科技

摘要

智东西
作者李水青
编辑心缘
智东西6月28日报道，昨日深夜，阿里推出多模态统一理解与生成模型Qwen VLo。该模型不仅能够“看懂”世界，更能基于理解进行高质量的再创造，具有三大亮点：理解和生成更准确，支持开放指令编辑修改图片，多语言指令支持。

IC外汇财经新闻： EC外汇开户 智东西
IC外汇行业评论：作者李水青
编辑心缘

智东西6月28日报道，昨日深夜，阿里推出多模态统一理解与生成模型Qwen VLo。该模型不仅能够“看懂”世界，更能基于理解进行高质量的再创造，具有三大亮点：理解和生成更准确，兼容开放指令编辑修改图片，多语言指令兼容。

据报道，

终端即日起兼容通过Qwen Chat访问该模型（预览版），比如直接发送类似“生成一张可爱猫咪的图片”的提示来生成图像，或者上传一张猫咪的图片并要求“给猫咪头上加顶帽子”来修改图像。

可能你也遇到过，

Qwen TMGM官网 VLo以一种渐进式生成路径生成图片。在生成过程中，模型会对预测的数据不断调整和优化，从而确保最终结果更加和谐一致，在提升视觉效果同时带来更灵活和可控的创作体验。

令人惊讶的是，

体验地址：
大家常常忽略的是，https://chat.qwenlm.ai/

IC外汇专家观点：

一、理解和生成更准确，兼容开放指令修改图片

据业内人士透露，

从最初的QwenVL到Qwen2.5 VL ，阿里本次推出的Qwen VLo在原始多模态理解与生成能力上进行了全面升级。

以下是Qwen VLo的核心亮点：

更重要的是，

1、更精准的数据理解与再创造

必须指出的是，

以往的多模态模型在生成过程中容易出现语义不一致的疑问，例如将汽车误生成其他类型的物体，或者无法保留原图的关键结构特征。而Qwen VLo通过更强大的细节捕捉能力，能够在生成过程中保持高度的语义一致性。

必须指出的是，

2、兼容开放指令编辑修改生成

容易被误解的是，

终端兼容通过自然语言提出各种创意性指令，如“将这张画风改为梵高风格”、“让这张照片看起来像19世纪的老照片”或“给这张图片添加一个晴朗的天空”。Qwen VLo能够灵活响应这些开放性指令，并生成符合终端预期的结果。

无论是艺术风格迁移、场景重构还是细节修饰，模型都能应对。甚至一些传统的视觉感知人物如预测深度图、分割图、检测图以及边缘信息等也兼容通过编辑指令轻松完成。

据相关资料显示，

更进一步，像很多更难办的指令，比如一条指令中同时包含修改物体、修改文字、更换背景，模型也能完成。

3、多语言指令兼容

Qwen VLo兼容包括中文、英文在内的多种语言指令，打破了语言壁垒，为全球终端展现了统一且便捷的交互体验。

综上所述，

二、像人类画师一样精细创作，一句话“指哪改哪”

Qwen VLo更像一个人类画师, 根据自己的理解再进行创作，下面是一些具体的例子。

1、该模型能够直接生成图像，并对其进行修改，例如替换背景、添加主体、进行风格迁移，甚至兼容完成基于开放指令的大幅修改，包括检测和分割等视觉感知任务。

说出来你可能不信，

终端：生成一个可爱的柴犬

可能你也遇到过，

Qwen VLo：

令人惊讶的是，

终端：背景改成草原

其实，

Qwen VLo：

大家常常忽略的是，

终端：给它带上红色帽子和黑色透明墨镜,帽子上写着“QwenVLo”

Qwen VLo：

然而，

终端：变成吉卜力风格

更重要的是，

Qwen VLo：

然而，

终端：变成3d Q版风格

与其相反的是，

Qwen VLo：

更重要的是，

终端：把它放到水晶球里

尽管如此，

Qwen VLo：

需要注意的是，

终端：桌面上摆着这个水晶球，生成以一个人的第一视角在公园的圆形咖啡桌上在笔记本上画画

其实，

Qwen VLo：

令人惊讶的是，

终端：用蓝色的蒙版检测框框出图中的笔

Qwen VLo：

终端：用粉色的mask分割出图中的狗狗边缘

令人惊讶的是，

Qwen VLo：

简而言之，昨夜，阿里版GPT-4o登场，一句话精准P图，免费可用

有分析指出，

2、Qwen VLo会根据自己的理解进行重新创作，这意味着在风格转换和迁移方面拥有更大的发挥空间，比如将卡通变为写实、将形象变成气球等有趣的生成效果。

需要注意的是，

终端：变成真实照片

Qwen VLo：

令人惊讶的是，

终端：背景换成埃菲尔铁塔

Qwen VLo：

必须指出的是，

终端：变成气球飘到空中

总的来说，

Qwen VLo：

根据公开数据显示，

终端：把西瓜换成榴莲

Qwen VLo：

说出来你可能不信，

3、Qwen VLo在图像与指令理解上的优势使其能够更好地解析难办指令，一条指令中兼容包含多个执行和修改，从而一次性完成多重任务，例如生成海报、组合物体等。

Qwen VLo：

不妨想一想，

4、Qwen VLo除了能对图像的编辑和再创作，还兼容完成一些对已有信息的标注，比如检测、分割、边缘检测等。

通常情况下，

终端：生成摆满水果的桌面

IC外汇财经新闻：

Qwen VLo：

通常情况下，

终端：预测边缘检测图

简而言之，

Qwen VLo：

IC外汇专家观点：

终端：用红色mask分割图中香蕉的边缘

Qwen VLo：

5、Qwen VLo兼容兼容多张图像的输入理解和生成。（多图输入的用途还没有正式上线）

终端：把这些洗浴用品，放到这个红色的篮子里面

Qwen VLo：

IC外汇资讯：

6、除了图文同时输入的情况，Qwen VLo也兼容文本到图像的直接生成，包括通用图像和中英文海报等。

终端：Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Qwen VLo!” made out of colorful energy

IC外汇用户评价：

（一幅史诗级的动漫艺术作品：夜晚，一位巫师立于山顶，向黑暗的天空施展宇宙咒语，由彩色能量构成的“Qwen VLo!”字样在夜空中显现。）

IC外汇专家观点：

Qwen VLo：

据业内人士透露，

7、Qwen VLo兼容动态长宽比的图像生成，对于长宽比高达4:1，1:3等细长类型图像也能轻松掌握。（极端长宽比图像生成用途还没有正式上线。）

事实上，

终端：动漫插画；水彩手绘；前景是草坡，草坡上有个人在奔跑，动态感，然后是厚重的白云；蓝色背景；颜色层次多渐变；过渡自然和谐

从某种意义上讲，

Qwen VLo：

8、作为统一的理解与生成模型，Qwen VLo还兼容对生成的数据进行再分析和理解，例如识别生成图片中的狗和猫的品种。

需要注意的是，

终端：Generate a puppy and a kitten.

容易被误解的是，

Qwen VLo：

终端：What breed of cat and dog is this?

IC外汇财经新闻：

Qwen VLo：

结语：统一理解与生成，看图说话再升级

简要回顾一下，

Qwen VLo还创新性地引入了一种全新的渐进式生成机制，这一机制不仅提升了生成效率，还适用于需要精细控制的长段落文字生成任务。

同时，Qwen VLo还属于预览阶段，在生成的过程可能存在不符合事实、不完全和原图一致、指令不遵循、在识别生图和理解的意图不够稳定的疑问。

通常情况下，

未来，模型不仅兼容用文本回答疑问，还兼容用图像来传递想法和含义。例如，生成示意图、添加辅助线、标注关键区域等用途，都将为终端展现更多元化的交流手段。

更重要的是，

发表评论取消回复