Qwen-Image-Layered更新了！支持更多层数灵活拆分-编程阁

Qwen-Image-Layered更新了！支持更多层数灵活拆分

1. 简介

最近，Qwen-Image-Layered 模型迎来一次重要升级——现在支持更灵活的图层数量设置，能够根据图像复杂度和编辑需求动态调整分解层数。这项更新让图像的“可编辑性”迈上新台阶。

你有没有遇到过这样的问题：想修改一张图片里的某个元素，比如换个背景、调个颜色，结果一动就糊了？传统图像编辑工具往往只能做全局调整，或者依赖手动抠图，费时又容易失真。而 Qwen-Image-Layered 的核心思路很不一样：它把一张图像自动拆解成多个独立的RGBA 图层，每个图层包含一个语义完整的视觉元素（比如人物、文字、背景等），彼此互不干扰。

这意味着什么？意味着你可以像操作设计软件中的图层一样，单独对某一层进行重新着色、缩放、移动、替换甚至删除，而其他内容完全不受影响。这种“物理隔离”的编辑方式，从根本上避免了修改带来的画面崩坏问题。

更重要的是，这次更新后，模型不再局限于固定的图层数量。无论是简单的3层结构，还是复杂的8层甚至更多，系统都能智能适配，真正实现了“按需拆分”。

如果你正在寻找一种高保真、低损耗的图像编辑方案，那 Qwen-Image-Layered 绝对值得一看。

2. 快速上手：从零运行 Qwen-Image-Layered

2.1 环境准备

要运行 Qwen-Image-Layered，首先确保你的环境满足以下条件：

Python ≥ 3.9
PyTorch ≥ 2.0
transformers ≥ 4.51.3（必须支持 Qwen2.5-VL）
diffusers 最新版（需从 GitHub 安装）

安装命令如下：

pip install git+https://github.com/huggingface/diffusers pip install python-pptx

提示：建议在有 GPU 支持的环境中运行，推理速度会显著提升。使用--device cuda可启用 GPU 加速。

2.2 启动 ComfyUI 接口

该镜像默认集成了 ComfyUI 可视化工作流界面，启动非常简单：

cd /root/ComfyUI/ python main.py --listen 0.0.0.0 --port 8080

执行后，打开浏览器访问http://<服务器IP>:8080即可进入图形化操作界面。对于不熟悉代码的用户来说，这是一个非常友好的选择。

2.3 使用 Python 脚本调用模型

如果你更喜欢直接写代码，也可以通过diffusers库快速调用模型。以下是完整示例：

from diffusers import QwenImageLayeredPipeline import torch from PIL import Image # 加载模型 pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered") pipeline = pipeline.to("cuda", torch.bfloat16) pipeline.set_progress_bar_config(disable=None) # 读取输入图像 image = Image.open("asserts/test_images/1.png").convert("RGBA") # 设置参数 inputs = { "image": image, "generator": torch.Generator(device='cuda').manual_seed(777), "true_cfg_scale": 4.0, "negative_prompt": " ", "num_inference_steps": 50, "num_images_per_prompt": 1, "layers": 6, # 新增功能：可自定义图层数量（如3、4、6、8等） "resolution": 640, # 推荐使用640分辨率桶（bucket）以获得最佳效果 "cfg_normalize": True, # 是否开启CFG归一化 "use_en_prompt": True, # 若未提供描述文本，自动生英文提示词 } # 执行推理 with torch.inference_mode(): output = pipeline(**inputs) output_images = output.images[0] # 获取所有图层 # 保存每一层 for i, layer_image in enumerate(output_images): layer_image.save(f"layer_{i}.png")

运行完成后，你会得到一组 PNG 文件，每个文件对应一个透明通道完整的 RGBA 图层。这些图层可以直接导入 Photoshop、Figma 或其他设计工具进行后续编辑。

3. 实际能力展示：看看它能做什么

3.1 分层解构：让图像“活”起来

给定一张普通图像，Qwen-Image-Layered 能自动将其分解为多个语义清晰的图层。例如下图中的人物、文字、装饰图案都被成功分离：

每个图层都是独立的 PNG 文件，带有完整的 Alpha 通道信息。这意味着你可以随时关闭某个图层查看影响范围，也可以单独导出某一元素用于新设计。

3.2 独立编辑：只改你想改的部分

由于各图层物理隔离，编辑操作不会波及其他内容。这是传统方法难以实现的。

示例1：重新着色第一层

我们仅对最上层的红色装饰条进行颜色替换，将其改为蓝色。整个过程中，人物、文字和其他背景元素完全保持不变：

示例2：替换人物性别

将第二层中的女孩替换为男孩。这里可以结合 Qwen-Image-Edit 模型完成局部重绘任务，只需指定目标图层即可精准修改：

示例3：修改文字内容

将“Qwen-VL”改为“Qwen-Image”。系统识别出文字位于单独图层后，即可无损替换，字体样式和投影效果全部保留：

3.3 基础操作：天然支持高保真变换

分层结构天生适合各种基础图像操作，无需担心边缘模糊或结构扭曲。

删除对象

直接移除不需要的图层即可彻底清除某个元素。比如删掉右下角的水印图标，画面干净自然：

自由缩放

对某一图层单独放大或缩小，不会拉伸整体图像。即使大幅调整尺寸，细节依然清晰锐利：

移动位置

拖动图层可在画布内任意重新定位元素。比如把人物往左移两格，构图更平衡：

4. 高级特性：灵活且可迭代的分层机制

4.1 支持可变图层数量

过去很多图层分解模型只能输出固定数量的图层（如4层），限制了适用场景。而本次更新后，Qwen-Image-Layered 支持动态设置 layers 参数，可根据图像复杂度灵活配置。

图像类型	推荐图层数
简单海报	3~4 层
复杂电商图	6~8 层
多元素合成图	8+ 层

例如，设置layers=8后，原本合并在一起的多个小元素也能被进一步拆分，提升编辑粒度：

4.2 支持递归分解：无限细化可能

更强大的是，Qwen-Image-Layered 支持递归式分解。也就是说，任何一个已被提取出的图层，本身还可以再次作为输入，继续拆分成更细的子图层。

举个例子：一张包含多人合影的照片，第一次分解可能将每个人作为一个整体图层；然后你可以选中其中一个人的图层，再次运行模型，将其面部、衣服、配饰等进一步分离。

这种“层层深入”的能力，使得即使是高度复杂的图像，也能逐步拆解到理想的编辑精度：

这为专业设计师、广告制作团队、AIGC 内容创作者提供了前所未有的非破坏性编辑体验。

5. 许可与引用

5.1 开源许可协议

Qwen-Image-Layered 已在 Apache 2.0 开源许可证下发布，允许个人和企业免费使用、修改和分发，包括商业用途。这对于希望将其集成到产品中的开发者来说是一个重大利好。

5.2 如何引用该项目

如果你在研究或项目中使用了 Qwen-Image-Layered，欢迎引用以下 BibTeX 条目：

@misc{yin2025qwenimagelayered, title={Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition}, author={Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu}, year={2025}, eprint={2512.15603}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.15603}, }