
快科技12月22日音讯,阿里开源全新图像生成模子Qwen-Image-Layered,初度在模子内齐备PS级的图层交融与图像生成。
千问新模子选择自研改进架构,可将图片“拆解”成多个图层,就像个专科蓄意师用Photoshop分层作图修图,可齐备简直“零漂移”的AI图像精确剪辑,透彻惩处AI生图的一致性逶迤,加快大模子在专科蓄意规模的试验落地。
Qwen-Image-Layered冲突了主流视觉大模子的“扁平式念念维”,模子通过“分层”和“补全”建树起对试验宇宙更准确的“物理式交融”,让AI从平面的“看图话语”迈向简直的“空间重构”。

在现时的视觉大模子规模,图像一致性剪辑持久是一个中枢挑战。AI生图有创意但难剪辑,主若是因为大模子对图片的交融是扁平的,是一堆像素点紧密耦合在沿途,而不成像东谈主雷同感知出图中物体的遐迩、掩盖等物理关联。
因此,让大模子生图和剪辑就像抽卡“开盲盒”:比如你想把画里的猫往左挪10厘米,但AI完全不知谈猫左挪后空出来的配景会有什么,只可再从头生成一次,猫和配景完全变了样。
这种“牵一发而动全身”的就地性,让AI画图在追求极致精确的生意告白蓄意、UI界面蓄意、影视后期处理等专科规模,持久只可看成一种参考,而无法实在取代专科用具。
Qwen-Image-Layered 的出现,意味着视觉大模子从“像素展望”转向“结构重组”。千问团队自研了一种全新的RGBA-VAE编码,在传统的RGB图像中引入代表透明度图层的“Alpha通谈”,让模子有了图层的看法。
同期新模子选择了改进的VLD-MMDiT架构,相助私有的“图层级3D位置编码”,让AI自动“脑补”被掩盖部分的配景纹理,齐备对图层和空间的更久了交融和生成。
据了解,为考试这种智商,千问团队从海量的专科Photoshop(PSD)文献中索取简直图层逻辑,让AI从诞生起就领有专科蓄意师的“分层念念维”。

Qwen-Image-Layered模子架构图
业内东谈主士指出,千问新模子将为创意产业带来骨子性变革。AI生图不再是呆板一块,而成为一个活生生的、可无尽更正的素材库。
图片剪辑也不再需要复杂紧密的东谈主工抠图,而是AI原生地齐备了“内在可剪辑性”,蓄意师、动画和影视制作主谈主员可在保抓配景或主体完全不变的前提下,对特定图层的构件进行位移、缩放或重绘,显耀栽植数字内容创作的分娩效果。
据了解,Qwen-Image-Layered已在魔搭社区和HuggingFace开源,开辟者和企业可免费下载商用。
放置现在,阿里已开源近400个千问模子,巨匠下载量突破7亿次,繁衍模子数超18万个,是巨匠第一的开源模子。通义大模子已作事超100万家客户,在中国企业级大模子调用商场中通义位居第一,是中国企业经受最多的大模子。
