美团开源 136 亿参数视频生成大模型！生成分钟级长视频不崩不糊，MIT 协议商用无忧-编程阁

美团开源 136 亿参数视频生成大模型！生成分钟级长视频不崩不糊，MIT 协议商用无忧

💡 视频生成大模型卷到今天，短片段 Demo 满天飞，但一做长视频就色彩偏移、画质崩坏？美团 LongCat-Video 带着 13.6B 参数来了——文生视频、图生视频、视频续写三合一，原生支持分钟级长视频生成，MOS 评分对标 Veo3 和 PixVerse-V5，而且 MIT 协议完全开源！

📌 目录

1. 先看效果
2. LongCat-Video 是什么？
3. 四大核心亮点
4. MOS 评分对标商业方案
5. LongCat-Video-Avatar：音频驱动数字人
6. 快速上手
7. 核心技术揭秘
8. 适用场景与优缺点
9. 总结

1. 先看效果

🎬 项目提供了 1 分钟的 Teaser Video，展示分钟级长视频生成能力：

📹 Teaser Video

关键看点：

✅ 分钟级长视频，无色彩偏移
✅ 720p / 30fps，画质稳定
✅ 文生视频 / 图生视频 / 视频续写，一个模型全搞定

2. LongCat-Video 是什么？

LongCat-Video是美团 LongCat 团队开源的基础视频生成大模型，参数量13.6B，支持三大任务：

任务	说明
🎬Text-to-Video	输入文字描述，生成视频
🖼️Image-to-Video	输入图片 + 文字，生成视频
▶️Video-Continuation	输入已有视频，自动续写后续内容

🔗 项目地址：https://github.com/meituan-longcat/LongCat-Video

📄 技术报告：https://arxiv.org/abs/2510.22200

🤗 模型权重：HuggingFace

📜 许可证：MIT License（模型权重也是 MIT！）

3. 四大核心亮点

🌟 亮点一：统一架构，三大任务一模型搞定

LongCat-Video 将 Text-to-Video、Image-to-Video、Video-Continuation统一在单一框架内，不需要切换模型或微调，一套权重原生支持所有任务。

对比其他方案：

方案	T2V	I2V	视频续写	是否统一架构
大部分开源方案	✅	✅	❌	分别训练
商业 API	✅	✅	部分	不公开
LongCat-Video	✅	✅	✅	统一架构

🌟 亮点二：原生分钟级长视频生成

这是 LongCat-Video 最大的杀手锏。它在预训练阶段就引入了Video-Continuation 任务，使得模型天然具备长视频生成能力：

❌ 传统方案：短视频拼接 → 拼接处色彩偏移、画质劣化
✅ LongCat-Video：原生续写 →无色彩偏移，画质不退化

🌟 亮点三：高效推理，720p 30fps 分钟级出片

LongCat-Video 采用从粗到细的生成策略，在时间轴和空间轴两个维度上逐步细化：

粗粒度生成（低分辨率 + 少帧） ↓ 时间轴细化 中间帧补全 ↓ 空间轴细化 高分辨率上采样 (720p)

再加上Block Sparse Attention机制，在高分辨率场景下进一步加速推理。

🌟 亮点四：多奖励 GRPO 强化学习，性能对标商业方案

LongCat-Video 使用多奖励 Group Relative Policy Optimization (GRPO)进行强化学习对齐，在内部和公开基准测试上，性能媲美领先开源模型和最新商业方案。

4. MOS 评分对标商业方案

Text-to-Video 评分

指标	Veo3	PixVerse-V5	Wan 2.2 (开源)	LongCat-Video (开源)
可访问性	闭源	闭源	开源	开源
架构	-	-	MoE 28B	Dense 13.6B
文本对齐↑	3.99	3.81	3.70	3.76
视觉质量↑	3.23	3.13	3.26	3.25
运动质量↑	3.86	3.81	3.78	3.74
综合质量↑	3.48	3.36	3.35	3.38

解读：

LongCat-Video 以13.6B Dense 架构（参数量不到 Wan 2.2 的一半），综合质量3.38反超 Wan 2.2 的 3.35
与闭源商业方案 PixVerse-V5（3.36）持平
距离 Veo3（3.48）差距仅 0.1

Image-to-Video 评分

指标	Seedance 1.0	Hailuo-02	Wan 2.2 (开源)	LongCat-Video (开源)
视觉质量↑	3.22	3.18	3.23	3.27
运动质量↑	3.77	3.80	3.79	3.59
综合质量↑	3.35	3.27	3.26	3.17

解读：

视觉质量3.27，在所有对比方案中排名第一
运动质量略有差距，这是长视频生成模型的 trade-off

5. LongCat-Video-Avatar：音频驱动数字人

除了基础视频生成，美团还推出了LongCat-Video-Avatar系列，专注音频驱动的人物视频生成：

版本演进

版本	音频编码器	核心升级	发布时间
Avatar v1.0	Wav2Vec2	单/多角色音频驱动	2025.12
Avatar v1.5	Whisper-Large-v3	口型更准 + 长视频稳定 + 风格泛化 + 蒸馏加速	2026.05

Avatar v1.5 五大升级

#	升级点	说明
1	🎤Whisper-Large-v3替代 Wav2Vec2	口型同步精度大幅提升
2	🏭生产级物理合理性与时序稳定性	长视频不再出现"鬼畜"或动作崩坏
3	🎨风格泛化	动漫、动物、复杂真实场景都能生成
4	🔊单流 + 多流音频输入	单人/多人对话场景全覆盖
5	⚡8 步蒸馏推理	推理步数大幅压缩，速度飞升

Avatar 支持的任务

任务	输入	输出
Audio-Text-to-Video	音频 + 文字	音频驱动的人物视频
Audio-Image-to-Video	音频 + 图片	以图片人物为基础的音频驱动视频
Video Continuation	已有视频	续写后续内容

Avatar 实战调参技巧

参数	推荐值	作用
`--audio_cfg`	3~5	越大口型同步越准
`--ref_img_index`	0~24（一致性）/ 30（减少重复动作）	控制参考帧位置
`--mask_frame_range`	3（默认），增大可减少重复	控制遮罩帧范围
`--resolution`	480P / 720P	分辨率选择
`--use_distill`	加上即启用	蒸馏加速（v1.5 必须加）
`--use_int8`	加上即启用	INT8 量化，降低显存（仅 v1.5）

6. 快速上手

第 ① 步：安装环境

gitclone --single-branch--branchmain https://github.com/meituan-longcat/LongCat-VideocdLongCat-Video conda create-nlongcat-videopython=3.10conda activate longcat-video# 安装 PyTorch（根据你的 CUDA 版本选择）pipinstalltorch==2.6.0+cu124torchvision==0.21.0+cu124torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124# 安装 FlashAttention-2pipinstallninja psutil packaging pipinstallflash_attn==2.7.4.post1# 安装其他依赖pipinstall-rrequirements.txt# 如需 Avatar 功能，额外安装condainstall-cconda-forge librosa ffmpeg pipinstall-rrequirements_avatar.txt

💡 FlashAttention-2 默认启用，也可切换 FlashAttention-3 或 xformers

第 ② 步：下载模型权重

pipinstall"huggingface_hub[cli]"# 基础视频生成模型huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video# Avatar v1.0（Wav2Vec2）huggingface-cli download meituan-longcat/LongCat-Video-Avatar --local-dir ./weights/LongCat-Video-Avatar# Avatar v1.5（Whisper-Large-v3，推荐）huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

第 ③ 步：运行推理

文生视频：

# 单 GPUtorchrun run_demo_text_to_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile# 多 GPUtorchrun--nproc_per_node=2run_demo_text_to_video.py--context_parallel_size=2--checkpoint_dir=./weights/LongCat-Video--enable_compile

图生视频：

torchrun run_demo_image_to_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

视频续写：

torchrun run_demo_video_continuation.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

分钟级长视频：

torchrun run_demo_long_video.py--checkpoint_dir=./weights/LongCat-Video--enable_compile

交互式生成（Streamlit）：

streamlit run ./run_streamlit.py--server.fileWatcherTypenone--server.headless=false

Avatar v1.5 音频驱动：

# 单人音频 → 视频torchrun--nproc_per_node=2run_demo_avatar_single_audio_to_video.py\--context_parallel_size=2\--checkpoint_dir=./weights/LongCat-Video-Avatar-1.5\--stage_1=at2v\--input_json=assets/avatar/single_example_1.json\--use_distill--model_typeavatar-v1.5--use_int8# 多人音频 → 视频torchrun--nproc_per_node=2run_demo_avatar_multi_audio_to_video.py\--context_parallel_size=2\--checkpoint_dir=./weights/LongCat-Video-Avatar-1.5\--input_json=assets/avatar/multi_example_1.json\--use_distill--model_typeavatar-v1.5--use_int8

7. 核心技术揭秘

统一架构设计

LongCat-Video 的核心思路是一套权重覆盖多种任务：

┌────────────────────────────────────────────────────┐ │ LongCat-Video 统一架构 │ │ │ │ ┌──────────┐ ┌──────────┐ ┌──────────────┐ │ │ │ 文本编码 │ │ 图像编码 │ │ 视频编码 │ │ │ │ (UMT5) │ │ (VAE) │ │ (VAE+续写) │ │ │ └────┬─────┘ └────┬─────┘ └──────┬───────┘ │ │ │ │ │ │ │ └──────────────┼───────────────┘ │ │ ▼ │ │ ┌──────────────────────────────────────────────┐ │ │ │ DiT (Diffusion Transformer) │ │ │ │ 13.6B Dense Parameters │ │ │ │ + Block Sparse Attention │ │ │ └──────────────────────┬───────────────────────┘ │ │ ▼ │ │ ┌──────────────────────────────────────────────┐ │ │ │ 从粗到细生成策略 │ │ │ │ 时间轴细化 → 空间轴细化 → 720p 输出 │ │ │ └──────────────────────────────────────────────┘ │ └────────────────────────────────────────────────────┘

关键技术一：Video-Continuation 原生预训练

传统视频生成模型只在短视频片段上训练，长视频靠拼接。LongCat-Video 从预训练阶段就引入续写任务，让模型学会从已有视频无缝延伸：

输入：前 N 帧视频
输出：后续 M 帧视频
结果：色彩一致、画质稳定、过渡自然

关键技术二：从粗到细 (Coarse-to-Fine) 生成

Step 1: 低分辨率 + 少帧 → 生成粗粒度视频骨架 Step 2: 时间轴插帧 → 补全中间帧，提升流畅度 Step 3: 空间轴超分辨率 → 上采样到 720p

这种策略既保证质量，又大幅降低计算量。

关键技术三：Block Sparse Attention

在高分辨率场景下，标准 Attention 的计算量是 O(n²)，Block Sparse Attention 通过分块稀疏计算，只关注关键区域，推理速度大幅提升。

关键技术四：多奖励 GRPO 强化学习

传统 RLHF: 单一奖励模型 → 优化单一维度 LongCat-Video: 多奖励 GRPO → 同时优化文本对齐 + 视觉质量 + 运动质量

多奖励 GRPO 是 LongCat-Video 性能对标商业方案的关键。

社区加速方案

CacheDiT 为 LongCat-Video 提供了全缓存加速支持，通过 DBCache 和 TaylorSeer 实现近1.7 倍加速，精度无明显损失。

8. 适用场景与优缺点

✅ 适合的场景

场景	说明
🎬 影视/广告预览	快速生成视频分镜和预览素材
📱 短视频/社交媒体	批量生成创意视频内容
🧑 数字人/虚拟形象	Avatar v1.5 音频驱动，口型精准
🎮 游戏资产生成	快速生成游戏内视频素材
📚 教育培训	数字人讲师 + 长视频课程生成

⚖️ 优缺点分析

维度	评分	说明
性能	⭐⭐⭐⭐⭐	13.6B Dense 对标 28B MoE，效率极高
长视频	⭐⭐⭐⭐⭐	原生续写，分钟级视频无色偏无画质退化
功能丰富度	⭐⭐⭐⭐⭐	T2V + I2V + 续写 + Avatar，全覆盖
开源友好	⭐⭐⭐⭐⭐	MIT 协议，模型权重也是 MIT！
Avatar 能力	⭐⭐⭐⭐⭐	v1.5 Whisper 编码器 + 蒸馏 + INT8
硬件门槛	⭐⭐⭐	13.6B 参数，需要高显存 GPU
运动质量	⭐⭐⭐⭐	I2V 运动质量有提升空间

⚠️ 注意事项

13.6B 参数模型推理需要高显存 GPU（建议 A100/H100 或多卡）
Avatar v1.5 必须加--use_distill参数
INT8 量化仅支持 Avatar v1.5
I2V 运动质量相比顶尖闭源方案仍有差距

9. 总结

LongCat-Video 是美团 LongCat 团队交出的一份重量级开源答卷：

🏗️统一架构：T2V + I2V + 视频续写，一个模型全搞定
🎬分钟级长视频：原生预训练续写，无色偏无画质退化
⚡高效推理：Coarse-to-Fine + Block Sparse Attention
🏆性能对标商业方案：MOS 综合 3.38，反超 Wan 2.2（3.35），持平 PixVerse-V5（3.36）
🧑Avatar v1.5：Whisper 编码器 + 蒸馏加速 + INT8 量化 + 风格泛化
📜MIT 协议：模型权重也是 MIT，商用无忧

推荐指数：⭐⭐⭐⭐⭐

在开源视频生成领域，LongCat-Video 是目前功能最全面、长视频最强、协议最友好的方案。如果你在做视频生成相关的工作，这个项目不容错过！

📢 原文链接：https://github.com/meituan-longcat/LongCat-Video
📄 技术报告：https://arxiv.org/abs/2510.22200
🤗 模型权重：HuggingFace
🌐 项目主页：https://meituan-longcat.github.io/LongCat-Video/

标签：#LongCat-Video #视频生成 #AI #大模型 #美团 #数字人 #AIGC

美团开源 136 亿参数视频生成大模型！生成分钟级长视频不崩不糊，MIT 协议商用无忧