news 2026/4/16 13:32:34

Qwen-Image-Layered更新了!支持更多层数灵活拆分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen-Image-Layered更新了!支持更多层数灵活拆分

Qwen-Image-Layered更新了!支持更多层数灵活拆分

1. 简介

最近,Qwen-Image-Layered 模型迎来一次重要升级——现在支持更灵活的图层数量设置,能够根据图像复杂度和编辑需求动态调整分解层数。这项更新让图像的“可编辑性”迈上新台阶。

你有没有遇到过这样的问题:想修改一张图片里的某个元素,比如换个背景、调个颜色,结果一动就糊了?传统图像编辑工具往往只能做全局调整,或者依赖手动抠图,费时又容易失真。而 Qwen-Image-Layered 的核心思路很不一样:它把一张图像自动拆解成多个独立的RGBA 图层,每个图层包含一个语义完整的视觉元素(比如人物、文字、背景等),彼此互不干扰。

这意味着什么?意味着你可以像操作设计软件中的图层一样,单独对某一层进行重新着色、缩放、移动、替换甚至删除,而其他内容完全不受影响。这种“物理隔离”的编辑方式,从根本上避免了修改带来的画面崩坏问题。

更重要的是,这次更新后,模型不再局限于固定的图层数量。无论是简单的3层结构,还是复杂的8层甚至更多,系统都能智能适配,真正实现了“按需拆分”。

如果你正在寻找一种高保真、低损耗的图像编辑方案,那 Qwen-Image-Layered 绝对值得一看。

2. 快速上手:从零运行 Qwen-Image-Layered

2.1 环境准备

要运行 Qwen-Image-Layered,首先确保你的环境满足以下条件:

  • Python ≥ 3.9
  • PyTorch ≥ 2.0
  • transformers ≥ 4.51.3(必须支持 Qwen2.5-VL)
  • diffusers 最新版(需从 GitHub 安装)

安装命令如下:

pip install git+https://github.com/huggingface/diffusers pip install python-pptx

提示:建议在有 GPU 支持的环境中运行,推理速度会显著提升。使用--device cuda可启用 GPU 加速。

2.2 启动 ComfyUI 接口

该镜像默认集成了 ComfyUI 可视化工作流界面,启动非常简单:

cd /root/ComfyUI/ python main.py --listen 0.0.0.0 --port 8080

执行后,打开浏览器访问http://<服务器IP>:8080即可进入图形化操作界面。对于不熟悉代码的用户来说,这是一个非常友好的选择。

2.3 使用 Python 脚本调用模型

如果你更喜欢直接写代码,也可以通过diffusers库快速调用模型。以下是完整示例:

from diffusers import QwenImageLayeredPipeline import torch from PIL import Image # 加载模型 pipeline = QwenImageLayeredPipeline.from_pretrained("Qwen/Qwen-Image-Layered") pipeline = pipeline.to("cuda", torch.bfloat16) pipeline.set_progress_bar_config(disable=None) # 读取输入图像 image = Image.open("asserts/test_images/1.png").convert("RGBA") # 设置参数 inputs = { "image": image, "generator": torch.Generator(device='cuda').manual_seed(777), "true_cfg_scale": 4.0, "negative_prompt": " ", "num_inference_steps": 50, "num_images_per_prompt": 1, "layers": 6, # 新增功能:可自定义图层数量(如3、4、6、8等) "resolution": 640, # 推荐使用640分辨率桶(bucket)以获得最佳效果 "cfg_normalize": True, # 是否开启CFG归一化 "use_en_prompt": True, # 若未提供描述文本,自动生英文提示词 } # 执行推理 with torch.inference_mode(): output = pipeline(**inputs) output_images = output.images[0] # 获取所有图层 # 保存每一层 for i, layer_image in enumerate(output_images): layer_image.save(f"layer_{i}.png")

运行完成后,你会得到一组 PNG 文件,每个文件对应一个透明通道完整的 RGBA 图层。这些图层可以直接导入 Photoshop、Figma 或其他设计工具进行后续编辑。

3. 实际能力展示:看看它能做什么

3.1 分层解构:让图像“活”起来

给定一张普通图像,Qwen-Image-Layered 能自动将其分解为多个语义清晰的图层。例如下图中的人物、文字、装饰图案都被成功分离:

每个图层都是独立的 PNG 文件,带有完整的 Alpha 通道信息。这意味着你可以随时关闭某个图层查看影响范围,也可以单独导出某一元素用于新设计。

3.2 独立编辑:只改你想改的部分

由于各图层物理隔离,编辑操作不会波及其他内容。这是传统方法难以实现的。

示例1:重新着色第一层

我们仅对最上层的红色装饰条进行颜色替换,将其改为蓝色。整个过程中,人物、文字和其他背景元素完全保持不变:

示例2:替换人物性别

将第二层中的女孩替换为男孩。这里可以结合 Qwen-Image-Edit 模型完成局部重绘任务,只需指定目标图层即可精准修改:

示例3:修改文字内容

将“Qwen-VL”改为“Qwen-Image”。系统识别出文字位于单独图层后,即可无损替换,字体样式和投影效果全部保留:

3.3 基础操作:天然支持高保真变换

分层结构天生适合各种基础图像操作,无需担心边缘模糊或结构扭曲。

删除对象

直接移除不需要的图层即可彻底清除某个元素。比如删掉右下角的水印图标,画面干净自然:

自由缩放

对某一图层单独放大或缩小,不会拉伸整体图像。即使大幅调整尺寸,细节依然清晰锐利:

移动位置

拖动图层可在画布内任意重新定位元素。比如把人物往左移两格,构图更平衡:

4. 高级特性:灵活且可迭代的分层机制

4.1 支持可变图层数量

过去很多图层分解模型只能输出固定数量的图层(如4层),限制了适用场景。而本次更新后,Qwen-Image-Layered 支持动态设置 layers 参数,可根据图像复杂度灵活配置。

图像类型推荐图层数
简单海报3~4 层
复杂电商图6~8 层
多元素合成图8+ 层

例如,设置layers=8后,原本合并在一起的多个小元素也能被进一步拆分,提升编辑粒度:

4.2 支持递归分解:无限细化可能

更强大的是,Qwen-Image-Layered 支持递归式分解。也就是说,任何一个已被提取出的图层,本身还可以再次作为输入,继续拆分成更细的子图层。

举个例子:一张包含多人合影的照片,第一次分解可能将每个人作为一个整体图层;然后你可以选中其中一个人的图层,再次运行模型,将其面部、衣服、配饰等进一步分离。

这种“层层深入”的能力,使得即使是高度复杂的图像,也能逐步拆解到理想的编辑精度:

这为专业设计师、广告制作团队、AIGC 内容创作者提供了前所未有的非破坏性编辑体验。

5. 许可与引用

5.1 开源许可协议

Qwen-Image-Layered 已在 Apache 2.0 开源许可证下发布,允许个人和企业免费使用、修改和分发,包括商业用途。这对于希望将其集成到产品中的开发者来说是一个重大利好。

5.2 如何引用该项目

如果你在研究或项目中使用了 Qwen-Image-Layered,欢迎引用以下 BibTeX 条目:

@misc{yin2025qwenimagelayered, title={Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition}, author={Shengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu}, year={2025}, eprint={2512.15603}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2512.15603}, }

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 20:56:53

YOLO26 predict参数怎么设?source输入详解教程

YOLO26 predict参数怎么设&#xff1f;source输入详解教程 最新 YOLO26 官方版训练与推理镜像 本镜像基于 YOLO26 官方代码库 构建&#xff0c;预装了完整的深度学习开发环境&#xff0c;集成了训练、推理及评估所需的所有依赖&#xff0c;开箱即用。 1. 镜像环境说明 核心框…

作者头像 李华
网站建设 2026/4/16 13:01:35

PyTorch通用开发实战案例:微调ResNet全流程部署指南

PyTorch通用开发实战案例&#xff1a;微调ResNet全流程部署指南 1. 引言&#xff1a;为什么选择这个环境做ResNet微调&#xff1f; 你是不是也经历过这样的场景&#xff1a;每次开始一个新项目&#xff0c;都要花半天时间配环境、装依赖、解决版本冲突&#xff1f;尤其是用Py…

作者头像 李华
网站建设 2026/4/13 10:34:12

Qwen3-0.6B图像描述缓存策略,节省计算资源

Qwen3-0.6B图像描述缓存策略&#xff0c;节省计算资源 1. 引言&#xff1a;为什么需要图像描述缓存&#xff1f; 你有没有遇到过这种情况&#xff1a;系统里有成千上万张图片&#xff0c;每次用户访问都要重新生成一遍描述&#xff1f;明明昨天刚生成过的图&#xff0c;今天打…

作者头像 李华
网站建设 2026/3/31 5:00:41

IQuest-Coder-V1 vs DeepSeek-Coder:复杂任务处理能力对比

IQuest-Coder-V1 vs DeepSeek-Coder&#xff1a;复杂任务处理能力对比 1. 为什么复杂任务处理能力正在成为代码模型的分水岭 你有没有遇到过这样的情况&#xff1a;写一个需要调用多个API、处理异常分支、还要兼顾性能优化的函数时&#xff0c;模型生成的代码总在第三层嵌套就…

作者头像 李华
网站建设 2026/4/14 21:20:12

播客内容结构化处理:章节分割与事件标记实战案例

播客内容结构化处理&#xff1a;章节分割与事件标记实战案例 1. 为什么播客需要“听懂”而不仅是“听见” 你有没有试过听完一档45分钟的深度播客&#xff0c;想回溯某个观点却只能拖动进度条反复试听&#xff1f;或者想把嘉宾提到的三个关键案例整理成笔记&#xff0c;结果发…

作者头像 李华
网站建设 2026/4/7 23:58:45

Qwen3-1.7B模型加载慢?磁盘IO优化部署技巧

Qwen3-1.7B模型加载慢&#xff1f;磁盘IO优化部署技巧 你是不是也遇到过这样的问题&#xff1a;刚启动Qwen3-1.7B模型&#xff0c;等了快一分钟才看到第一个输出&#xff1f;明明硬件配置不差&#xff0c;但每次重启服务都要“晾”在那儿干等。别急——这很可能不是你的显卡不…

作者头像 李华