news 2026/4/16 19:34:00

【AAAI2026】阿里云人工智能平台PAI视频编辑算法论文入选

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AAAI2026】阿里云人工智能平台PAI视频编辑算法论文入选

近期,阿里云人工智能平台 PAI 的视频编辑算法论文在 AAAI2026 上正式亮相发表(Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration)。AAAI 是人工智能领域最具影响力的国际顶级会议之一,旨在为研究人员、工程师与产业界专家提供交流平台,展示在机器学习、计算机视觉与生成式 AI 等方向的最新研究成果与应用进展。此次入选标志着阿里云人工智能平台 PAI 在视频编辑算法方面的研究获得了学术界的充分认可。

视频编辑的目标是根据用户需求对目标视频进行修改,其中“外观编辑”是一类关键任务:在尽可能保留视频结构与运动模式的前提下,改变目标主体的颜色、纹理或整体风格。过往主流方法多采用文本提示(prompt)引导编辑,但文本表达往往存在歧义,且难以精确描述细粒度外观(例如复杂配色、局部纹理布局等),从而限制了用户对编辑结果的精细控制。因此,更符合真实创作流程的方案是“参考图驱动的视频编辑”:用户先对某一帧进行精修,得到理想外观的参考图(可通过 Photoshop、ComfyUI 或任意图像编辑工具完成),再将该外观一致地传播到后续帧中(如图1所示)。这类任务天然地将问题拆解为两步:先获得高质量参考帧,再实现跨帧外观一致传播。

图1. 我们提出的视频编辑算法与主流方法的对比

尽管参考图驱动的视频外观传播已有不少探索,但现有方法仍面临明显局限。一类方法依赖光流估计来对齐并传播外观特征,其效果容易受到光流精度影响,在大幅运动、遮挡或复杂镜头变化下会明显退化;另一类方法基于图生视频(I2V)模型进行反演与去噪传播,但往往受显存限制约束视频长度,且轻量时序建模对大运动范围适应不足。此外,近年来一些零样本(zero-shot)外观迁移方法通过干预扩散模型的注意力机制实现跨帧传播,虽然能提升鲁棒性,但往往会引入复合画质退化,例如模糊、颜色缺失或过饱和等问题,并且这种退化会随着多帧传播而累积。

针对上述问题,PAI 团队提出了全新的两阶段方法 Zero-to-Hero,用于提升视频外观迁移的准确性、时序一致性与最终画质。Zero-to-Hero 将“外观传播”解耦为两个阶段:首先生成一个可靠的零样本传播初始化(Zero-Stage),再通过整体性视频修复模型提升画质(Hero-Stage)。图2展示了我们算法的整体框架。在 Zero-Stage 中,我们利用原始视频帧之间的对应关系来引导扩散模型的注意力传播,相比以往依赖光流或额外时序模块的方案,在处理大运动目标时更稳健,从而提供准确且时序一致的初始化结果。然而,对注意力机制的干预会带来难以避免的模糊与颜色缺失等退化。为突破这一零样本上限,我们进一步提出 Hero-Stage:训练一个面向退化模式的条件生成模型,对视频进行画质修复。

图 2:视频编辑过程示意图

如图3所示,Zero-to-Hero 在 Colorization 与 Blender-Color-Edit 两项可逐帧评测的任务上均取得最优结果(PSNR 分别达 28.21/26.76 dB,且 LPIPS 最低、SSIM 最高),同时在 General-Edit 上也在锚点帧指标与时序一致性(MS/SC)上整体领先,体现了更稳定的外观传播与更高的画质保真。

图 3:实验效果概览

如图4所示,在 General-Edit 数据集的定性对比中,Zero-to-Hero 能更准确地贴合参考帧外观,同时最大程度保持原视频的结构与运动一致性;相比基线方法,结果中外观漂移与细节模糊现象更少,整体观感更稳定。

图 4:Zero-to-Hero与其他方法编辑结果示例

论文信息

论文名字:Zero-to-Hero: Empowering Video Appearance Transfer with Zero-Shot Initialization and Holistic Restoration

论文作者:苏彤彤、汪诚愚、廖海鹏、黄俊、鲁东明

论文 pdf 链接:https://arxiv.org/abs/2505.23134

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 10:37:41

agentscope循环对话 这个msg是在循环外面的

这个msg是在循环外面的 msg Nonewhile True:msg await agent(msg)msg await user(msg)if msg.get_text_content() "exit":break agentscope-ai/agentscope: AgentScope: Agent-Oriented Programming for Building LLM Applications input版本: fro…

作者头像 李华
网站建设 2026/4/16 12:14:31

AI渗透测试工具:ATTCK知识图谱的自动化攻击链生成框架

随着AI技术的深度渗透,网络安全测试正经历革命性变革。软件测试从业者作为质量保障的核心力量,亟需理解AI驱动的渗透测试工具如何结合MITRE ATT&CK框架,实现自动化攻击链生成。ATT&CK框架提供标准化的对抗行为知识库,涵盖…

作者头像 李华
网站建设 2026/4/16 10:39:59

垃圾定时投放监管系统设计

垃圾定时投放监管系统设计 第一章 绪论 随着垃圾分类政策的推进,垃圾定时定点投放成为规范分类行为的关键措施,但当前存在投放时间无序、违规投放难追溯、监管人力成本高等问题,影响分类成效。垃圾定时投放监管系统通过技术手段实现投放时间…

作者头像 李华
网站建设 2026/4/16 13:51:53

短剧春节档开打:漫剧成平台新争夺战场!

在过去几年中,春节档一直是短剧行业实现破圈突围的关键跳板。过去的短剧依靠“电子年货”属性,成功吸引了数亿用户,内容从“娱乐快餐”升级为“正餐硬菜”,实现了与电影、长剧三足鼎立的局面。然而,随着短剧市场格局的…

作者头像 李华
网站建设 2026/4/16 18:14:16

Windows文件过滤驱动MiniFilter导致的死锁问题分析

摘要Windows文件过滤驱动(File Filter Driver)是操作系统中用于拦截和处理文件I/O请求的重要组件。MiniFilter框架作为现代文件过滤驱动的标准实现方式,为开发者提供了便捷的驱动开发接口。然而,由于其独特的工作机制和复杂的内核…

作者头像 李华
网站建设 2026/4/16 10:41:01

‌危机管理测试:从灾害事件学故障切换

故障切换不是技术动作,而是系统韧性的心跳‌ 在软件测试领域,‌“故障切换”‌(failover)早已超越了“主备切换”的技术实现,演变为一场‌系统级的危机管理演练‌。真正的测试者,不再满足于“验证服务是否…

作者头像 李华