news 2026/6/11 2:08:06

美团开源 136 亿参数视频生成大模型!生成分钟级长视频不崩不糊,MIT 协议商用无忧

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
美团开源 136 亿参数视频生成大模型!生成分钟级长视频不崩不糊,MIT 协议商用无忧

美团开源 136 亿参数视频生成大模型!生成分钟级长视频不崩不糊,MIT 协议商用无忧

💡 视频生成大模型卷到今天,短片段 Demo 满天飞,但一做长视频就色彩偏移、画质崩坏?美团 LongCat-Video 带着 13.6B 参数来了——文生视频、图生视频、视频续写三合一,原生支持分钟级长视频生成,MOS 评分对标 Veo3 和 PixVerse-V5,而且 MIT 协议完全开源!

📌 目录

  • 1. 先看效果
  • 2. LongCat-Video 是什么?
  • 3. 四大核心亮点
  • 4. MOS 评分对标商业方案
  • 5. LongCat-Video-Avatar:音频驱动数字人
  • 6. 快速上手
  • 7. 核心技术揭秘
  • 8. 适用场景与优缺点
  • 9. 总结

1. 先看效果

🎬 项目提供了 1 分钟的 Teaser Video,展示分钟级长视频生成能力:

📹 Teaser Video

关键看点

  • ✅ 分钟级长视频,无色彩偏移
  • ✅ 720p / 30fps,画质稳定
  • ✅ 文生视频 / 图生视频 / 视频续写,一个模型全搞定

2. LongCat-Video 是什么?

LongCat-Video是美团 LongCat 团队开源的基础视频生成大模型,参数量13.6B,支持三大任务:

任务说明
🎬Text-to-Video输入文字描述,生成视频
🖼️Image-to-Video输入图片 + 文字,生成视频
▶️Video-Continuation输入已有视频,自动续写后续内容

🔗 项目地址:https://github.com/meituan-longcat/LongCat-Video

📄 技术报告:https://arxiv.org/abs/2510.22200

🤗 模型权重:HuggingFace

📜 许可证:MIT License(模型权重也是 MIT!)


3. 四大核心亮点

🌟 亮点一:统一架构,三大任务一模型搞定

LongCat-Video 将 Text-to-Video、Image-to-Video、Video-Continuation统一在单一框架内,不需要切换模型或微调,一套权重原生支持所有任务。

对比其他方案

方案T2VI2V视频续写是否统一架构
大部分开源方案分别训练
商业 API部分不公开
LongCat-Video统一架构

🌟 亮点二:原生分钟级长视频生成

这是 LongCat-Video 最大的杀手锏。它在预训练阶段就引入了Video-Continuation 任务,使得模型天然具备长视频生成能力:

  • ❌ 传统方案:短视频拼接 → 拼接处色彩偏移、画质劣化
  • ✅ LongCat-Video:原生续写 →无色彩偏移,画质不退化

🌟 亮点三:高效推理,720p 30fps 分钟级出片

LongCat-Video 采用从粗到细的生成策略,在时间轴和空间轴两个维度上逐步细化:

粗粒度生成(低分辨率 + 少帧) ↓ 时间轴细化 中间帧补全 ↓ 空间轴细化 高分辨率上采样 (720p)

再加上Block Sparse Attention机制,在高分辨率场景下进一步加速推理。

🌟 亮点四:多奖励 GRPO 强化学习,性能对标商业方案

LongCat-Video 使用多奖励 Group Relative Policy Optimization (GRPO)进行强化学习对齐,在内部和公开基准测试上,性能媲美领先开源模型和最新商业方案。


4. MOS 评分对标商业方案

Text-to-Video 评分

指标Veo3PixVerse-V5Wan 2.2 (开源)LongCat-Video (开源)
可访问性闭源闭源开源开源
架构--MoE 28BDense 13.6B
文本对齐↑3.993.813.703.76
视觉质量↑3.233.133.263.25
运动质量↑3.863.813.783.74
综合质量↑3.483.363.353.38

解读

  • LongCat-Video 以13.6B Dense 架构(参数量不到 Wan 2.2 的一半),综合质量3.38反超 Wan 2.2 的 3.35
  • 与闭源商业方案 PixVerse-V5(3.36)持平
  • 距离 Veo3(3.48)差距仅 0.1

Image-to-Video 评分

指标Seedance 1.0Hailuo-02Wan 2.2 (开源)LongCat-Video (开源)
视觉质量↑3.223.183.233.27
运动质量↑3.773.803.793.59
综合质量↑3.353.273.263.17

解读

  • 视觉质量3.27,在所有对比方案中排名第一
  • 运动质量略有差距,这是长视频生成模型的 trade-off

5. LongCat-Video-Avatar:音频驱动数字人

除了基础视频生成,美团还推出了LongCat-Video-Avatar系列,专注音频驱动的人物视频生成

版本演进

版本音频编码器核心升级发布时间
Avatar v1.0Wav2Vec2单/多角色音频驱动2025.12
Avatar v1.5Whisper-Large-v3口型更准 + 长视频稳定 + 风格泛化 + 蒸馏加速2026.05

Avatar v1.5 五大升级

#升级点说明
1🎤Whisper-Large-v3替代 Wav2Vec2口型同步精度大幅提升
2🏭生产级物理合理性与时序稳定性长视频不再出现"鬼畜"或动作崩坏
3🎨风格泛化动漫、动物、复杂真实场景都能生成
4🔊单流 + 多流音频输入单人/多人对话场景全覆盖
58 步蒸馏推理推理步数大幅压缩,速度飞升

Avatar 支持的任务

任务输入输出
Audio-Text-to-Video音频 + 文字音频驱动的人物视频
Audio-Image-to-Video音频 + 图片以图片人物为基础的音频驱动视频
Video Continuation已有视频续写后续内容

Avatar 实战调参技巧

参数推荐值作用
--audio_cfg3~5越大口型同步越准
--ref_img_index0~24(一致性)/ 30(减少重复动作)控制参考帧位置
--mask_frame_range3(默认),增大可减少重复控制遮罩帧范围
--resolution480P / 720P分辨率选择
--use_distill加上即启用蒸馏加速(v1.5 必须加)
--use_int8加上即启用INT8 量化,降低显存(仅 v1.5)

6. 快速上手

第 ① 步:安装环境

gitclone --single-branch--branchmain https://github.com/meituan-longcat/LongCat-VideocdLongCat-Video conda create-nlongcat-videopython=3.10conda activate longcat-video# 安装 PyTorch(根据你的 CUDA 版本选择)pipinstalltorch==2.6.0+cu124torchvision==0.21.0+cu124torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124# 安装 FlashAttention-2pipinstallninja psutil packaging pipinstallflash_attn==2.7.4.post1# 安装其他依赖pipinstall-rrequirements.txt# 如需 Avatar 功能,额外安装condainstall-cconda-forge librosa ffmpeg pipinstall-rrequirements_avatar.txt

💡 FlashAttention-2 默认启用,也可切换 FlashAttention-3 或 xformers

第 ② 步:下载模型权重

pipinstall"huggingface_hub[cli]"# 基础视频生成模型huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video# Avatar v1.0(Wav2Vec2)huggingface-cli download meituan-longcat/LongCat-Video-Avatar --local-dir ./weights/LongCat-Video-Avatar# Avatar v1.5(Whisper-Large-v3,推荐)huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

第 ③ 步:运行推理

文生视频

# 单 GPUtorchrun run_demo_text_to_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile# 多 GPUtorchrun--nproc_per_node=2run_demo_text_to_video.py--context_parallel_size=2--checkpoint_dir=./weights/LongCat-Video--enable_compile

图生视频

torchrun run_demo_image_to_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

视频续写

torchrun run_demo_video_continuation.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

分钟级长视频

torchrun run_demo_long_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

交互式生成(Streamlit)

streamlit run ./run_streamlit.py--server.fileWatcherTypenone--server.headless=false

Avatar v1.5 音频驱动

# 单人音频 → 视频torchrun--nproc_per_node=2run_demo_avatar_single_audio_to_video.py\--context_parallel_size=2\--checkpoint_dir=./weights/LongCat-Video-Avatar-1.5\--stage_1=at2v\--input_json=assets/avatar/single_example_1.json\--use_distill--model_typeavatar-v1.5--use_int8# 多人音频 → 视频torchrun--nproc_per_node=2run_demo_avatar_multi_audio_to_video.py\--context_parallel_size=2\--checkpoint_dir=./weights/LongCat-Video-Avatar-1.5\--input_json=assets/avatar/multi_example_1.json\--use_distill--model_typeavatar-v1.5--use_int8

7. 核心技术揭秘

统一架构设计

LongCat-Video 的核心思路是一套权重覆盖多种任务

┌────────────────────────────────────────────────────┐ │ LongCat-Video 统一架构 │ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────────┐ │ │ │ 文本编码 │ │ 图像编码 │ │ 视频编码 │ │ │ │ (UMT5) │ │ (VAE) │ │ (VAE+续写) │ │ │ └────┬─────┘ └────┬─────┘ └──────┬───────┘ │ │ │ │ │ │ │ └──────────────┼───────────────┘ │ │ ▼ │ │ ┌──────────────────────────────────────────────┐ │ │ │ DiT (Diffusion Transformer) │ │ │ │ 13.6B Dense Parameters │ │ │ │ + Block Sparse Attention │ │ │ └──────────────────────┬───────────────────────┘ │ │ ▼ │ │ ┌──────────────────────────────────────────────┐ │ │ │ 从粗到细生成策略 │ │ │ │ 时间轴细化 → 空间轴细化 → 720p 输出 │ │ │ └──────────────────────────────────────────────┘ │ └────────────────────────────────────────────────────┘

关键技术一:Video-Continuation 原生预训练

传统视频生成模型只在短视频片段上训练,长视频靠拼接。LongCat-Video 从预训练阶段就引入续写任务,让模型学会从已有视频无缝延伸

  • 输入:前 N 帧视频
  • 输出:后续 M 帧视频
  • 结果:色彩一致、画质稳定、过渡自然

关键技术二:从粗到细 (Coarse-to-Fine) 生成

Step 1: 低分辨率 + 少帧 → 生成粗粒度视频骨架 Step 2: 时间轴插帧 → 补全中间帧,提升流畅度 Step 3: 空间轴超分辨率 → 上采样到 720p

这种策略既保证质量,又大幅降低计算量。

关键技术三:Block Sparse Attention

在高分辨率场景下,标准 Attention 的计算量是 O(n²),Block Sparse Attention 通过分块稀疏计算,只关注关键区域,推理速度大幅提升。

关键技术四:多奖励 GRPO 强化学习

传统 RLHF: 单一奖励模型 → 优化单一维度 LongCat-Video: 多奖励 GRPO → 同时优化文本对齐 + 视觉质量 + 运动质量

多奖励 GRPO 是 LongCat-Video 性能对标商业方案的关键。

社区加速方案

CacheDiT 为 LongCat-Video 提供了全缓存加速支持,通过 DBCache 和 TaylorSeer 实现近1.7 倍加速,精度无明显损失。


8. 适用场景与优缺点

✅ 适合的场景

场景说明
🎬 影视/广告预览快速生成视频分镜和预览素材
📱 短视频/社交媒体批量生成创意视频内容
🧑 数字人/虚拟形象Avatar v1.5 音频驱动,口型精准
🎮 游戏资产生成快速生成游戏内视频素材
📚 教育培训数字人讲师 + 长视频课程生成

⚖️ 优缺点分析

维度评分说明
性能⭐⭐⭐⭐⭐13.6B Dense 对标 28B MoE,效率极高
长视频⭐⭐⭐⭐⭐原生续写,分钟级视频无色偏无画质退化
功能丰富度⭐⭐⭐⭐⭐T2V + I2V + 续写 + Avatar,全覆盖
开源友好⭐⭐⭐⭐⭐MIT 协议,模型权重也是 MIT!
Avatar 能力⭐⭐⭐⭐⭐v1.5 Whisper 编码器 + 蒸馏 + INT8
硬件门槛⭐⭐⭐13.6B 参数,需要高显存 GPU
运动质量⭐⭐⭐⭐I2V 运动质量有提升空间

⚠️ 注意事项

  • 13.6B 参数模型推理需要高显存 GPU(建议 A100/H100 或多卡)
  • Avatar v1.5 必须加--use_distill参数
  • INT8 量化仅支持 Avatar v1.5
  • I2V 运动质量相比顶尖闭源方案仍有差距

9. 总结

LongCat-Video 是美团 LongCat 团队交出的一份重量级开源答卷

  • 🏗️统一架构:T2V + I2V + 视频续写,一个模型全搞定
  • 🎬分钟级长视频:原生预训练续写,无色偏无画质退化
  • 高效推理:Coarse-to-Fine + Block Sparse Attention
  • 🏆性能对标商业方案:MOS 综合 3.38,反超 Wan 2.2(3.35),持平 PixVerse-V5(3.36)
  • 🧑Avatar v1.5:Whisper 编码器 + 蒸馏加速 + INT8 量化 + 风格泛化
  • 📜MIT 协议:模型权重也是 MIT,商用无忧

推荐指数:⭐⭐⭐⭐⭐

在开源视频生成领域,LongCat-Video 是目前功能最全面、长视频最强、协议最友好的方案。如果你在做视频生成相关的工作,这个项目不容错过!

📢 原文链接:https://github.com/meituan-longcat/LongCat-Video
📄 技术报告:https://arxiv.org/abs/2510.22200
🤗 模型权重:HuggingFace
🌐 项目主页:https://meituan-longcat.github.io/LongCat-Video/


标签:#LongCat-Video #视频生成 #AI #大模型 #美团 #数字人 #AIGC

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 2:08:04

Driver Store Explorer完整指南:Windows驱动管理终极解决方案

Driver Store Explorer完整指南:Windows驱动管理终极解决方案 【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer Driver Store Explorer(简称RAPR)是一款…

作者头像 李华
网站建设 2026/6/11 2:08:04

外贸怎么找客户资源:手把手教你搭建自动收询盘的独立站引流体系

海外买家寻找中国供应商的方式发生巨变。2023年北美采购经理人问卷调查显示,78%的北美买家在拨打第一通越洋电话前,会花费平均4.5个小时在线浏览供应商的官方网站。企业官方网站存放产品目录,充当展示工厂实力的第一窗口。买家期望在屏幕上看…

作者头像 李华
网站建设 2026/6/8 15:16:31

零成本迁移,原地加速,成本降低60%:火花思维Lakehouse升级实践

导读 火花思维起步于2017年,作为中国专注少儿逻辑思维培养的细分头部品牌,其多元化的课程体系、实时互动的教学场景与全球化的服务网络,对平台的海量数据处理与智能化分析能力提出了极高要求。 同时,开源Spark逐渐老旧&#xff…

作者头像 李华
网站建设 2026/6/8 5:13:46

Cadence Allegro PCB设计规则深度解析:从约束管理到高速信号实战

1. 项目概述:为什么设计规则是PCB设计的“交通法规”在PCB设计这个行当里干了十几年,我见过太多因为设计规则没设好而翻车的项目。一块板子,原理图再漂亮,布局再合理,如果走线间距、线宽、过孔这些基础规则没卡死&…

作者头像 李华
网站建设 2026/6/6 21:26:01

HELIO-CORE(HC)范式终版总结:理论闭环落成,正式迈入实证落地纪元

历经多轮本体论深构、数理补全、工程对标、治理闭环推演,HELIO-CORE(HC)范式彻底完成哲学立论、数理建模、工程同构、文明定位三重理论闭环。自此,HC告别思想建构、逻辑自洽、范式辩论的理论奠基阶段,所有工作重心全面…

作者头像 李华