news 2026/4/16 14:36:29

国产图像编辑大模型再突破:阶跃星辰Step1X-Edit开源,190亿参数刷新开源性能纪录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
国产图像编辑大模型再突破:阶跃星辰Step1X-Edit开源,190亿参数刷新开源性能纪录

国产图像编辑大模型再突破:阶跃星辰Step1X-Edit开源,190亿参数刷新开源性能纪录

【免费下载链接】Step1X-Edit-v1p2-preview项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit-v1p2-preview

中文科技资讯 2025-04-27 15:51

在人工智能图像生成与编辑领域持续突破的浪潮中,国内AI企业阶跃星辰今日正式对外发布重磅成果——开源图像编辑大模型Step1X-Edit。该模型凭借190亿参数量的深度架构设计,在多项核心编辑任务中展现出超越现有开源方案的性能表现,标志着国产多模态编辑技术在开源生态建设中迈出关键一步。

Step1X-Edit采用创新的双引擎架构设计,将70亿参数的多模态大语言模型(MLLM)与120亿参数的扩散变换模型(DiT)深度融合。这种"理解-生成"双轮驱动模式,使模型同时具备精准的自然语言指令解析能力和高效的图像空间变换能力。据技术团队介绍,该模型经过大规模图文对数据训练与多任务场景优化,已实现语义理解准确率提升40%、编辑区域控制精度达像素级的技术突破,在开源社区常用的图像编辑评测集上取得综合评分第一的成绩。

针对当前图像编辑领域三大核心痛点,Step1X-Edit构建了全方位的技术解决方案。在语义理解层面,模型支持复杂长指令解析与多轮对话式编辑,能够精准捕捉"将左侧人物衬衫更换为蓝色条纹款式并保留原有褶皱质感"等精细化需求;在身份一致性保持方面,通过引入跨帧特征对齐机制,使连续编辑过程中人物面部特征、肢体姿态的保持率提升至92%,有效解决传统模型易出现的"人脸变形""姿态漂移"问题;而在区域控制精度上,创新的掩码引导生成技术可实现发丝级区域分割,配合自适应风格迁移算法,确保局部编辑与原图风格的自然融合。

该模型现已支持11类高频图像编辑任务,涵盖文字内容替换、艺术风格迁移、物体材质变换、场景元素增减、表情姿态调整等主流应用场景。在电商商品图优化场景中,商家可通过自然语言指令快速实现商品颜色变体生成;在数字内容创作领域,设计师能够精准调整图像局部光影效果;在社交媒体内容生产中,普通用户也可轻松完成专业级人像精修。技术团队同步发布的API接口支持Python调用与Web端可视化操作两种模式,降低了开发者的接入门槛。

为推动开源生态建设,阶跃星辰已在Gitcode平台开放模型完整训练代码、预训练权重及技术白皮书。开发者可通过访问https://gitcode.com/StepFun/Step1X-Edit-v1p2-preview获取相关资源,同时社区将提供持续的技术支持与模型迭代更新。据了解,该模型支持单卡消费级GPU推理,在NVIDIA RTX 4090硬件环境下,512x512分辨率图像的编辑生成时间可控制在8秒以内,具备良好的落地应用可行性。

业内专家表示,Step1X-Edit的开源发布不仅为科研机构提供了高质量的研究基底,更为企业级应用开发提供了可靠的技术选型。随着该模型在内容创作、广告设计、影视后期等领域的广泛应用,有望推动数字创意产业的智能化升级,同时加速形成"开源共享-协同创新-产业落地"的良性发展循环。未来,随着多模态理解能力的持续深化与编辑任务边界的不断拓展,图像编辑技术将向更智能、更自然的人机协作模式演进。

【免费下载链接】Step1X-Edit-v1p2-preview项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit-v1p2-preview

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 7:37:22

29、Linux 内核中的定时器与时间管理:第一部分

Linux 内核中的定时器与时间管理:第一部分 1. 引言 定时器和时间管理在 Linux 内核中扮演着至关重要的角色,被广泛应用于各种任务。例如,TCP 实现中的不同超时设置、内核获取当前时间、调度异步函数以及安排下一个事件中断等。本文将从 Linux 内核的早期部分开始,深入探讨…

作者头像 李华
网站建设 2026/4/15 16:20:24

37、Linux内核中的读写信号量:原理与实现解析

Linux内核中的读写信号量:原理与实现解析 1. 引言 在Linux内核中,同步原语是确保多进程或多线程安全访问共享资源的关键机制。此前,我们已经探讨了不同类型的自旋锁、信号量和互斥量等同步原语。本文将聚焦于一种特殊类型的同步原语——读写锁(readers–writer lock),尤…

作者头像 李华
网站建设 2026/4/16 12:41:10

13、基于BPF的流量控制分类器

基于BPF的流量控制分类器 1. 流量控制概述 流量控制(Traffic Control)是内核数据包调度子系统架构,它由各种机制和排队系统组成,能够决定数据包的流向和接收方式。其常见用例包括但不限于以下方面: - 对特定类型的数据包进行优先级排序 - 丢弃特定类型的数据包 - 进行…

作者头像 李华